- Опубликовано
Бенчмарки нас обманывают
- Автор
- Имя
- 🔥 Как управлять проектами и продуктами в IT
- Telegram
- 🔥 Как управлять проектами и продуктами в IT12970 подписчиков903 постаПривет, я Дима Ирешев. Руковожу PMO в e-com. На канале делюсь опытом про 🛒 E-com & IT: разборы крутых проектов и продуктов 😎 Как управлять командами 🚀 AI & Tech: внедрение нейросетей в рабочие процессы Связь @ireshev Мемы @jokes_in_IT Работа @baazar_it
Бенчмарки нас обманывают
Chatbot Arena — это система, которая позволяет тестировать и сравнивать различные языковые модели нейросетей. Реальные пользователи задают вопросы, и две модели одновременно отвечают на них. Затем пользователь выбирает понравившийся ответ, что дает соответствующей нейросети очки в рейтинге.
Скандал начался с нейросети от Цукерберга Llama 4 Maverick. В Chatbot Arena выпустили версию специально заточенную под этот «бенчмарк». И больше ни подо что. Естественно, она показала отличные результаты, а когда выяснилось, что реальная версия такие показатели не выдает, то компания поспешила извиниться.
Позже выяснилось, что организаторы бенчмарка Chatbot Arena предоставляла ведущим игрокам в области искусственного интеллекта (OpenAI, Google, Amazon и другие) возможность проводить закрытые тесты различных вариантов собственных моделей. После этого неудачные варианты исключались и не попадали в публичные рейтинги.
Это позволило лидерам рынка создавать модели, оптимально подходящие для тестов, и представлять в Chatbot Arena именно их. К примеру, в случае с Llama 4 Maverick компания провела 27 тестов и выбрали только одну версию. Google проводил более 10 тестов, Amazon - 7. У компаний поменьше возможности проводить закрытые тесты - нет.
Нейронки придёться проверят по старинке, методом тыка.
@dmitrii_ireshev_Agile_PMP #ai #ии
Закрепленные
Из подборки #ai
- Опубликовано
ИИ спешит на помощь. Часть 19
- Опубликовано
Поисковики умирают
- Опубликовано
AI‑дайджест: нейросети в управлении проектами
- Опубликовано
Что на самом деле делают люди на работе с нейросетями?
- Опубликовано
ИИ спешит на помощь. Часть 18
- Опубликовано
просто напоминалочка)
Свежие посты
- Опубликовано
Интервью про бизнес
- Опубликовано
Исход из Купертино: Apple меняет руководство
- Опубликовано
Сбер сокращает штат на 20% за счёт внедрения ИИ
- Опубликовано
Как приготовить проект
- Опубликовано
АМА сессия андой Х5
- Опубликовано
📅 Дайджест IT-событий 20 – 26 апреля от...
- Опубликовано
Agile, Scrum, Kanban и OKR
- Опубликовано





























