Оцінки штучного інтелекту можуть бути оманливими – дослідник закликає до незалежної перевірки моделей.

Оцінки штучного інтелекту можуть бути оманливими - дослідник закликає до незалежної перевірки моделей. 1 Непослідовні методології тестування спотворюють прогрес і ускладнюють порівняння моделей між компаніями.

Дослідник Бенджамін Арнав зазначає, що сучасна система оцінки моделей штучного інтелекту є ненадійною через відсутність стандартизації. Він підкреслює, що показники, які часто використовуються як свідчення прогресу, зазвичай отримуються в різних умовах, що може вводити в оману. Це впливає на рішення щодо безпеки, впровадження моделей і оцінки ризиків.

“Ми приймаємо рішення про впровадження та безпеку на основі даних, які не відображають реальність. Інші галузі з високими ризиками вирішили цю проблему, передавши функцію вимірювання незалежним аудиторам”, — наголосив Арнав.

Проблема

Яскравим прикладом є бенчмарк SWE-bench Verified, який використовується для оцінки здатності моделей до написання коду. Як зазначає Арнав, різні версії моделей тестувалися в неоднакових умовах — з різною кількістю завдань, інструментів та режимів міркування, що робить результати несумісними.

Зокрема, компанія Anthropic змінювала параметри тестування майже з кожним новим релізом — від 3.7 до новіших версій. Схожі проблеми спостерігаються і в підходах OpenAI. Наприклад, результати моделі o3-mini базувалися лише на частині великого масиву завдань, що унеможливлює пряме порівняння з іншими системами.

Крім того, компанія не завжди розкривала кількість випробувань або деталі оцінювання. , в свою чергу, спочатку публікував обмежену інформацію про Gemini 2.5, але згодом додав окремі документи з методологією.

Розбіжності також стосуються інших популярних тестів, зокрема GPQA та AIME. Компанії змінюють кількість випробувань, способи обчислення результатів або додають сторонні інструменти, що безпосередньо впливає на підсумкові показники, але не завжди враховується в публічних інтерпретаціях.

Арнав визнає, що частина цих змін викликана практичними обставинами — зокрема, обмеженнями інфраструктури або часу перед релізами моделей. Проте він підкреслює, що це не знімає потреби у прозорості.

Розвʼязання проблеми

Як можливий вихід він пропонує передати оцінювання моделей незалежним аудиторам. У такій моделі компанії повинні надавати свої системи для стандартизованого тестування стороннім організаціям, які публікували б результати одночасно з релізами.

Подібна практика вже частково застосовується для оцінок безпеки у співпраці з організаціями Apollo та METR. Водночас більшість метрик, які активно цитуються у публічному просторі, залишаються внутрішніми і не проходять незалежної верифікації.

Чому необхідно змінити оцінювання?

Як аргумент на користь змін дослідник наводить приклади з інших галузей. Зокрема, він згадує автомобільні краш-тести Euro NCAP та фінансові стандарти після Великої депресії, які запровадили незалежний аудит і уніфіковані підходи до оцінювання.

На його думку, додатковим стимулом для впровадження таких практик може стати політика великих замовників. Зокрема, державні та корпоративні контракти можуть вимагати незалежної оцінки моделей як обов’язкової умови співпраці.

Водночас Арнав зауважує, що нинішня система частково вигідна самим компаніям, адже високі показники підсилюють інформаційний ефект від релізів. Проте ця рівновага може змінитися, якщо хоча б один гравець зробить ставку на повну прозорість.

У короткостроковій перспективі він також допускає компромісний варіант — узгодження спільних стандартів тестування для відкритих бенчмарків. Це дозволить хоча б частково зменшити розрив між заявленими результатами різних моделей.

Арнав підсумовує, що стандартизовані оцінки є критично важливими для розуміння реальних можливостей . Без них неможливо забезпечити належний рівень довіри, безпеки та обґрунтованих рішень щодо впровадження технологій.

Раніше адміністрація Дональда Трампа обговорювала можливість запровадження державного нагляду за моделями штучного інтелекту — перевірки систем до їхнього публічного запуску. Зміна курсу, ймовірно, відбудеться після появи потужних та потенційно небезпечних технологій, таких як Mythos від Anthropic.

Схожі публікації
2 коментарів
  1. Юлія П. каже

    Дуже важливо впровадити незалежну перевірку, щоб уникнути маніпуляцій з оцінками і забезпечити справжню безпеку та прозорість у розвитку штучного інтелекту. Без стандартизації прогрес залишається сумнівним.

    1. Катерина Мельник каже

      Абсолютно згоден, незалежна перевірка та стандартизація є ключовими для чесності та безпеки розвитку штучного інтелекту. Це допоможе уникнути маніпуляцій і зміцнити довіру суспільства до технологій.

Залишити відповідь