Британська компанія з безпеки штучного інтелекту Mindgard повідомила, що знайшла спосіб змусити чат-бот ChatGPT створювати сексуалізовані зображення та сцени насильства за допомогою зміненого текстового запиту. Після публікації матеріалу журналістами BBC компанія OpenAI оголосила про впровадження нових механізмів захисту.
Дослідники зазначили, що проблема стосувалася передостанньої публічної версії ChatGPT — GPT-5.4. Вони стверджують, що незначні зміни у “відомому шаблоні запитів” дозволяли отримувати зображення, які порушують правила платформи щодо чутливого контенту.
“Це абсолютно безневинна інструкція для штучного інтелекту, але результатом є те, що вона генерує дуже, дуже неприпустимі зображення та контент”, — зазначив засновник Mindgard і професор комп’ютерних наук Ланкастерського університету Пітер Гарраган, додавши, що особливе занепокоєння викликала здатність моделі самостійно створювати сцени насильства або сексуалізовані образи без прямих вказівок у запиті.
Дослідник безпеки Джим Найтінгейл висловився, що “був вражений” характером отриманих результатів. Він зазначив, що деякі створені зображення містили сцени серйозних травм, насильства або натяки на сексуальні злочини.
У відповідь OpenAI повідомила, що після аналізу виявленої проблеми запровадила додаткові запобіжники. Компанія також підкреслила, що використовує багаторівневу систему захисту, яка поєднує автоматизовані механізми модерації та перевірку людьми.
“Після дослідження цієї тенденції, ми запровадили додаткові запобіжні заходи проти такого типу запитів”, — зазначили в OpenAI.
Проте дослідники стверджують, що після внесення змін їм вдалося знайти альтернативні способи обходу нових обмежень. За їхніми словами, проблема повністю не зникла, хоча компанія продовжує працювати над її усуненням.
Компанія Mindgard спеціалізується на пошуку способів обходу захисних механізмів моделей штучного інтелекту. Такі дослідження проводяться, щоб розробники могли виявляти вразливості та закривати їх до того, як ними почнуть користуватися зловмисники.
OpenAI забороняє створення контенту, пов’язаного із сексуальним насильством, несанкціонованими інтимними матеріалами, сексуальною експлуатацією дітей та будь-якими спробами обійти встановлені обмеження. У своїх офіційних рекомендаціях компанія також наголошує, що моделі не повинні створювати еротичний контент або сцени надмірного насильства, за винятком окремих освітніх, історичних, мистецьких чи новинних контекстів.
На початку весни OpenAI відклала запланований запуск “дорослого режиму” для ChatGPT, який мав дозволити еротичні розмови та скасувати відповідні контентні обмеження. Це рішення було ухвалене після засідання ради експертів із добробуту, які попередили про ризики розвитку нездорової емоційної залежності користувачів та небезпеку створення “сексуального консультанта із самогубств”.
Експертка з оцінювання систем штучного інтелекту та виконавча директорка Humane Intelligence Румман Чоудхурі зазначила, що проблема обходу захисних механізмів залишається складним викликом для всієї галузі. За її словами, розробники та дослідники постійно перебувають у своєрідній “грі в кішки-мишки”, де кожне нове посилення захисту породжує нові методи його обходу.
За словами Чоудхурі, великі мовні моделі не розуміють намірів, контексту чи моральних норм так, як це роблять люди. Саме тому повністю виключити ризик небажаних результатів під час роботи таких систем поки що залишається неможливим.
Раніше дослідники Mindgard виявили подібну вразливість у чат-боті Claude від Anthropic. Вони змусили модель самостійно генерувати еротику, шкідливий код та інструкції зі створення вибухівки без прямих запитів на такий контент. Для обходу безпекових фільтрів версії Claude Sonnet 4.5 фахівці використали методи соціальної інженерії та “психологічні” особливості ШІ: лестощі, газлайтинг та схильність моделі бути максимально корисною й уникати конфліктів.
Це показує, наскільки важливо постійно вдосконалювати захист ШІ, адже навіть найкращі системи можуть мати вразливості, що потребують швидкого реагування. OpenAI зробили правильний крок.
Абсолютно вірно. Постійне оновлення захисту ШІ — ключ до безпеки і надійності систем. Вчасне реагування OpenAI зміцнює довіру користувачів і допомагає запобігати зловживанням.