Подписаться
Опубликовано

Бенчмарки нас обманывают

Автор
  • Имя
    🚀 Как управлять проектами и продуктами в IT
    Telegram

Бенчмарки нас обманывают

Chatbot Arena — это система, которая позволяет тестировать и сравнивать различные языковые модели нейросетей. Реальные пользователи задают вопросы, и две модели одновременно отвечают на них. Затем пользователь выбирает понравившийся ответ, что дает соответствующей нейросети очки в рейтинге.

Скандал начался с нейросети от Цукерберга Llama 4 Maverick. В Chatbot Arena выпустили версию специально заточенную под этот «бенчмарк». И больше ни подо что. Естественно, она показала отличные результаты, а когда выяснилось, что реальная версия такие показатели не выдает, то компания поспешила извиниться.

Позже выяснилось, что организаторы бенчмарка Chatbot Arena предоставляла ведущим игрокам в области искусственного интеллекта (OpenAI, Google, Amazon и другие) возможность проводить закрытые тесты различных вариантов собственных моделей. После этого неудачные варианты исключались и не попадали в публичные рейтинги.

Это позволило лидерам рынка создавать модели, оптимально подходящие для тестов, и представлять в Chatbot Arena именно их. К примеру, в случае с Llama 4 Maverick компания провела 27 тестов и выбрали только одну версию. Google проводил более 10 тестов, Amazon - 7. У компаний поменьше возможности проводить закрытые тесты - нет.

Нейронки придёться проверят по старинке, методом тыка.

Пруфы

@dmitrii_ireshev_Agile_PMP #ai #ии

🚀 Как управлять проектами и продуктами в IT
12970 подписчиков
802 поста
Я Дима Ирешев — руковожу проектным офисом в e-com, а это мой канал про: 🛒 Крутые проекты и продукты 😎 Управление бизнесом 🚀 Искуственный интелект (AI) и нейросети Связь @ireshev Мемы @jokes_in_IT Вакансии @baazar_it

Закрепленные

Из подборки #ai

Опубликовано
#ai
+1

Исследования проектного управления Coursera

Исследование проектного управления Coursera: тренды ИИ, автоматизация, удалёнка
Опубликовано
#ai
+1

Stack Overflow: как ИИ победил живое сообщество

как ИИ заменил живое сообщество Stack Overflow и что это значит для управления продуктами
Опубликовано
#ai
+1

ИИ спешит на помощь. Часть 16

ИИ спешит на помощь. Часть 16 – лучшие нейросервисы для видео, геолокации, браузерных приложений и автоматизации
Опубликовано
#ai
+1

Доля ChatGPT стремительно сокращается

Доля ChatGPT в веб‑трафике упала с 87,2% до 68%, рост Gemini до 18,2% в 2024 году

Свежие посты

Опубликовано

Интервью, про бизнес

интервью бизнес: истории успеха, стратегии и кейсы из медицинских клиник, маркетплейсов и логистики
Опубликовано

Дайджест событий в IT на 2 – 8 марта от

Дайджест событий в IT 2–8 марта: вебинары, митапы, конференции
Опубликовано

Системы управления проектами и канбан‑доски 2025

Обзор лучших систем управления проектами и канбан‑досок 2025‑2026
Опубликовано

Что будет, если OpenAI и Anthropic пожмут руки?

Что может случиться, если попросить руководителей OpenAI и Anthropic пожать друг другу руки?