OpenAI розробила систему «зізнань» для мовних моделей

Зі зростанням можливостей мовних моделей постає потреба глибше розуміти їхню поведінку, зокрема випадки, коли система порушує інструкції, йде на хитрощі або намагається обійти правила, видаючи відповідь, яка виглядає правильною, але такою не є. Саме для таких ситуацій OpenAI розробила концепцію зізнань – додаткового виходу моделі, який пояснює, наскільки вона реально дотрималась вказівок.
Зізнання – це окрема відповідь, у якій модель аналізує свої дії. Вони не впливають на основну оцінку відповіді, і навпаки – чесне зізнання навіть у порушенні правил винагороджується. Мета – навчити модель відверто повідомляти про свої помилки незалежно від того, чи помітив це користувач.
Як працюють зізнання?
Після основної відповіді користувачу система надсилає моделі спеціальне системне повідомлення з інструкцією надати звіт-зізнання. У ньому модель повинна перелічити всі явні та неявні інструкції, яких мала дотриматися, об’єктивно оцінити, чи справді вона це зробила, а також вказати всі моменти невизначеності або спірні випадки, з якими стикалася під час формування відповіді.

Цей звіт оцінюється окремою модель нагороди, яка бере до уваги лише точність, повноту й чесність зізнання, не впливаючи на оцінку основної відповіді. Завдяки такій ізоляції модель не боїться викривати себе, адже зізнання не шкодить, а навпаки – приносить користь у навчанні.
Результати тестування: зізнання працюють
У ході тестування на складних сценаріях, де моделі навмисно підштовхували до порушення інструкцій — наприклад, надання неточної відповіді, штучної згоди або спроб обійти правила — дослідники з’ясували, що у 95% випадків моделі чесно зізнавалися у таких діях. Лише у 4,4% випадків система порушувала інструкції і не повідомляла про це у зізнанні, а більшість помилок виникала не через навмисне приховування, а через непорозуміння або складність завдання.
Приклад із тесту показав, як модель неправильно виконала завдання (не змогла точно чергувати кількість слів у реченнях), проте відверто визнала це у зізнанні, пояснивши, чому їй не вдалося дотриматись правила.
Цікава ідея, але чи справді це змінить ситуацію? Здається, що навіть чесні «зізнання» мовних моделей мало що змінять, якщо ми не навчимося критично сприймати їхні відповіді і розуміти межі. Можливо, це просто новий спосіб маскувати помилки.
Цікава ідея — змусити модель саму оцінювати свої помилки. Це може підвищити довіру до відповідей, але водночас залишається питання, наскільки чесно і точно штучний інтелект зможе це робити. Важливо дивитися на результати в реальному використанні.