
Для реклами публічної версії штучного інтелекту було використано статистику недоступної експериментальної версії.
У вихідні Meta випустили дві нові моделі штучного інтелекту Llama 4 -Light -Scout та Medium -Format Maverick, який, за даними компанії, перевищує спалах GPT -4O та Gemini 2.0 у широкому діапазоні популярних тестів. Але, як виявилося, статистика META вводить в оману користувачів, повідомляє Вержа.
У прес-релізі про випуск Meta Moda AI вони підкреслили їх чудовий результат у рейтингу Lmarena-Platform, де користувачі порівнюють моделі II в режимі чату та голосують за найкраще. За даними компанії, Maverick зайняв друге місце від Ело-Ратінгів 1417-х, що перебуває в GPT-4o від OpenAI і лише трохи позаду Gemini 2,5 Pro.
Однак користувачі помітили примітку в мета -документації, в якій зазначається, що не публічна модель була перевірена, а експериментальна версія, спеціально оптимізована для розмовної взаємодії. Компанія не повідомила про це відразу, але лише пізніше підтвердила, що індивідуальна версія використовувалася-LAMA-4-MAVERICK-03-26-Experimental, створена для кращого враження в чаті.
У відповідь керівництво Lmarena звинувачувало Мета у тому, що вони не відповідали їх очікуванням від постачальників моделей AI, і вже почали оновлювати свої правила, щоб уникнути таких ситуацій у майбутньому. Компанія вважає, що коли постачальники можуть надати спеціально налаштовані версії своїх моделей для тестування, одночасно випускаючи абсолютно різні для громадськості, такі рейтинги, як Lmarene, стають менш значущими як показники реальної ефективності.
Ми нагадаємо, раніше повідомлялося, що новий тест на штучний інтелект не є єдиною моделлю ШІ.
Cloudflare створив AI, щоб обдурити ботів, які збирають інформацію для ШІ
Новини від Кореспондент.net У Telegram та WhatsApp. Підпишіться на наші канали https://t.me/korrespententnet І WhatsApp