Подписаться
Опубликовано

Бенчмарки нас обманывают

Автор
  • Имя
    🔥 Как управлять проектами и продуктами в IT
    Telegram

Бенчмарки нас обманывают

Chatbot Arena — это система, которая позволяет тестировать и сравнивать различные языковые модели нейросетей. Реальные пользователи задают вопросы, и две модели одновременно отвечают на них. Затем пользователь выбирает понравившийся ответ, что дает соответствующей нейросети очки в рейтинге.

Скандал начался с нейросети от Цукерберга Llama 4 Maverick. В Chatbot Arena выпустили версию специально заточенную под этот «бенчмарк». И больше ни подо что. Естественно, она показала отличные результаты, а когда выяснилось, что реальная версия такие показатели не выдает, то компания поспешила извиниться.

Позже выяснилось, что организаторы бенчмарка Chatbot Arena предоставляла ведущим игрокам в области искусственного интеллекта (OpenAI, Google, Amazon и другие) возможность проводить закрытые тесты различных вариантов собственных моделей. После этого неудачные варианты исключались и не попадали в публичные рейтинги.

Это позволило лидерам рынка создавать модели, оптимально подходящие для тестов, и представлять в Chatbot Arena именно их. К примеру, в случае с Llama 4 Maverick компания провела 27 тестов и выбрали только одну версию. Google проводил более 10 тестов, Amazon - 7. У компаний поменьше возможности проводить закрытые тесты - нет.

Нейронки придёться проверят по старинке, методом тыка.

Пруфы

@dmitrii_ireshev_Agile_PMP #ai #ии

🔥 Как управлять проектами и продуктами в IT
12970 подписчиков
933 поста
Привет, я Дима Ирешев. Руковожу PMO в e-com. На канале делюсь опытом про 🛒 E-com & IT: разборы крутых проектов и продуктов 😎 Как управлять командами 🚀 AI & Tech: внедрение нейросетей в рабочие процессы Связь @ireshev Мемы @jokes_in_IT Работа @baazar_it

Закрепленные

Из подборки #ai

Опубликовано

Самые быстрорастущие AI-компании

Самые быстрорастущие AI-компанииНиже данные по выручке на одного сотрудника: • Anthropic (~2500 человек) — $5,6 млн • OpenAI (~4000 человек) —...
Опубликовано

❗️Лонгрид: Если твой CEO сошёл с ума

❗️Лонгрид: Если твой CEO сошёл с умаВ марте CEO акселератора Y Combinator Гарри Тан гордо заявил, что спит по 4 часа в сутки. Причина? Он управлял...
Опубликовано

Аналитический центр при правительстве...

Аналитический центр при правительстве представил свежий индекс клиентоцентричности ведомств. Для тех, кто привык к продуктовым метрикам, это...
Опубликовано

Проблемы с неймингом

Проблемы с неймингом Что такое Microsoft Copilot? К «Copilot» сейчас относится как минимум к 80 разным продуктам. Приложения, функции, платформы,...
Опубликовано

Одинокие волки

Одинокие волки Эта таблица от компании Carta показывает интересную смену трендов в американских стартапах: одиночные фаундеры (соло-основатели)...

Свежие посты

Опубликовано

📅 Дайджест IT-событий 8 – 14 июня

Дайджест IT-событий 8 – 14 июня ПОНЕДЕЛЬНИК AI в биологии: пять задач, которые еще вчера казались невозможными — Разбор прорывных кейсов...
Опубликовано

Делаем красивые фотки в Японии

Делаем красивые фотки в ЯпонииДля всех фанатов Аниме сделали классную штуку — карту реальных мест из любимых тайтлов, и она называется Anitabi....
Опубликовано

⚡️ Развитие карьеры и саморазвитие

⚡️ Развитие карьеры и саморазвитиеПрофессиональный рост — это не всегда прямая линия. Иногда он начинается в колл-центре, а заканчивается в кресле...
Опубликовано

Ключевые изменения на HeadHunter

Ключевые изменения на HeadHunterВ соц сетях наткнулся на такую картинку, с новыми правилами для кандидатов на hh.ru. Поэтому решил поделиться с...
Опубликовано

Самые быстрорастущие AI-компании

Самые быстрорастущие AI-компанииНиже данные по выручке на одного сотрудника: • Anthropic (~2500 человек) — $5,6 млн • OpenAI (~4000 человек) —...
Опубликовано

Кто такой Александр Добровинский?

Кто такой Александр Добровинский?Если вы слышите о громком судебном процессе в России с участием звезд, крупных бизнесменов или политиков, с...
Опубликовано

Кто идёт на

Кто идёт на South HUB × Lamoda?В эту среду в офисе Ламоды на Кралатском будет встреча Директоров по продукту (CPO) из Авито, Яндекс, S7 и Lamoda....
Опубликовано

📅 Дайджест IT-событий 1 – 7 июня

Дайджест IT-событий 1 – 7 июня ПОНЕДЕЛЬНИК 🔸 Podlodka Go Crew x 2ГИС — Недельный интенсив для Go-разработчиков: лучшие практики, архитектура и...