Подписаться
Опубликовано

Бенчмарки нас обманывают

Автор
  • Имя
    🔥 Как управлять проектами и продуктами в IT
    Telegram

Бенчмарки нас обманывают

Chatbot Arena — это система, которая позволяет тестировать и сравнивать различные языковые модели нейросетей. Реальные пользователи задают вопросы, и две модели одновременно отвечают на них. Затем пользователь выбирает понравившийся ответ, что дает соответствующей нейросети очки в рейтинге.

Скандал начался с нейросети от Цукерберга Llama 4 Maverick. В Chatbot Arena выпустили версию специально заточенную под этот «бенчмарк». И больше ни подо что. Естественно, она показала отличные результаты, а когда выяснилось, что реальная версия такие показатели не выдает, то компания поспешила извиниться.

Позже выяснилось, что организаторы бенчмарка Chatbot Arena предоставляла ведущим игрокам в области искусственного интеллекта (OpenAI, Google, Amazon и другие) возможность проводить закрытые тесты различных вариантов собственных моделей. После этого неудачные варианты исключались и не попадали в публичные рейтинги.

Это позволило лидерам рынка создавать модели, оптимально подходящие для тестов, и представлять в Chatbot Arena именно их. К примеру, в случае с Llama 4 Maverick компания провела 27 тестов и выбрали только одну версию. Google проводил более 10 тестов, Amazon - 7. У компаний поменьше возможности проводить закрытые тесты - нет.

Нейронки придёться проверят по старинке, методом тыка.

Пруфы

@dmitrii_ireshev_Agile_PMP #ai #ии

🔥 Как управлять проектами и продуктами в IT
12970 подписчиков
903 поста
Привет, я Дима Ирешев. Руковожу PMO в e-com. На канале делюсь опытом про 🛒 E-com & IT: разборы крутых проектов и продуктов 😎 Как управлять командами 🚀 AI & Tech: внедрение нейросетей в рабочие процессы Связь @ireshev Мемы @jokes_in_IT Работа @baazar_it

Закрепленные

Из подборки #ai

Опубликовано

ИИ спешит на помощь. Часть 19

Подборка полезных ИИ‑инструментов: переводчики, микшеры, генераторы изображений и другие сервисы для разработки и продуктивности.
Опубликовано

AI‑дайджест: нейросети в управлении проектами

AI‑дайджест: подборка видео, интервью и статей о внедрении нейросетей в управление проектами и повышение продуктивности.
Опубликовано
#ai
+4

Что на самом деле делают люди на работе с нейросетями?

В небольших компаниях сотрудники активно используют нейросети: 71% работают с AI без одобрения IT, 64% бюджета уходит на генерацию изображений.
Опубликовано
#ai
+1

ИИ спешит на помощь. Часть 18

AI‑инструменты (Nanobot, ChartGen AI, Geospy, PDF‑Extract‑Kit, RAG‑Anything) автоматизируют аналитику, визуализацию, поиск локаций и извлечение данных.

Свежие посты

Опубликовано

Интервью про бизнес

Интервью про бизнес Видео — От барабанов до бизнеса: как музыкант строит вселенную развлечений. Опыт Vasiliev Groove. — Как Skillbox стал...
Опубликовано

Исход из Купертино: Apple меняет руководство

Исход из Купертино: Apple меняет руководствоПодтвердились слухи о грядущей смене власти в Apple: 1 сентября Тим Кук покинет пост генерального...
Опубликовано

Сбер сокращает штат на 20% за счёт внедрения ИИ

Сбер сократил штат на 20% в 2025 году, заменив сотрудников ИИ‑технологиями, что стал частью масштабной автоматизации.
Опубликовано

Как приготовить проект

Методика управления проектами через кулинарные аналогии: роль шеф‑повара‑продукт‑менеджера и повара‑проект‑менеджера.
Опубликовано

АМА сессия андой Х5

AMA‑сессия X5: задайте вопросы о запуске новых сервисов, проверке идей и управлении проектами в крупной компании.
Опубликовано

📅 Дайджест IT-событий 20 – 26 апреля от...

Сводка IT‑мероприятий 20‑26 апреля: конференции, митапы, вебинары и курсы по AI, управлению проектами и e‑com.
Опубликовано

Agile, Scrum, Kanban и OKR

Agile, Scrum, Kanban и OKR: ключевые подходы к гибкому управлению проектами и целями, повышающие эффективность команд.
Опубликовано

💎 Распределенное управление в Yumemi (Япония)

Распределённое управление в Yumemi (Япония): self‑set salary, система «Каждый — CEO», радикальная прозрачность и снижение административного слоя до 2 %.