Штучний інтелект від OpenAI зрівнявся з експертами в реальних професіях

Від Дмитро Лисенко Оновлено Січ 17, 2026 15 1

4.8/5 - (6)

OpenAI представила власний тест GDPval, який вимірює, наскільки ефективно AI-моделі можуть виконувати роботу в економічно важливих сферах. Перша версія тесту — GDPval-v0 — охоплює 9 галузей, що формують основу ВВП США, включно з охороною здоров’я, фінансами, виробництвом і державним сектором.

Загалом перевірялися 44 професії, серед яких журналісти, медсестри та інженери-програмісти.

Результати GPT-5 та конкурентів

Вас зацікавить

Вікіпедія не довіряє ШІ: авторам заборонили використання LLM…

Бер 28, 2026

Вийшов трейлер “Кінець Оук-Стріт”: дикий Sci-Fi…

Бер 28, 2026

У тестуванні брали участь професіонали, які порівнювали звіти, підготовлені людьми, із тими, що створили AI-моделі.

GPT-5-high (посилена версія моделі з більшими обчислювальними ресурсами) показала результат: 40,6% випадків відповідей визнані кращими або на рівні експертів.
Claude Opus 4.1 від Anthropic продемонстрував навіть вищий показник — 49%. OpenAI пояснює цей результат схильністю Claude створювати приємні для ока візуальні матеріали.

Для порівняння, GPT-4o, випущений 15 місяців тому, отримав лише 13,7% у подібному тесті.

Попри прогрес, OpenAI визнає: поточний GDPval перевіряє лише вузьке коло завдань, зокрема створення дослідницьких звітів, тоді як реальна робота професіоналів значно ширша. У майбутньому компанія планує розробити більш масштабні тести, які охоплюватимуть інтерактивніші та різноманітніші сценарії.

Продовжити читання

AI Apple ChatGPT Claude google

1 коментар

Олександр каже 6 місяців тому

Цікаво, як швидко розвивається штучний інтелект. Порівняння з експертами в таких важливих сферах, як охорона здоров’я та фінанси, дійсно вражає. Чи справді AI може замінити людей у цих професіях?!!

Увійдіть, щоб відповісти

Залишити відповідь

Щоб відправити коментар вам необхідно авторизуватись.