Claude здатен створювати небезпечний контент – дослідники Mindgard протестували чат-бота від Anthropic – технологічні новини
Експеримент продемонстрував, що компліменти та похвала спонукають модель самостійно створювати небезпечний контент.
Дослідники компанії Mindgard повідомили, що їм вдалося обійти обмеження чат-бота Claude від Anthropic без прямих запитів. Модель сама почала пропонувати заборонені матеріали — від шкідливого коду до інструкцій зі створення вибухівки, як зазначає The Verge.
Компанія Anthropic, яка позиціонує себе як розробник безпечного штучного інтелекту, зіткнулася з новими викликами щодо надійності своїх моделей. Нове дослідження виявило, що поведінкові характеристики чат-бота Claude можуть створювати додаткову вразливість.
Згідно з даними дослідників, їм не потрібно було прямо запитувати заборонений контент. Використовуючи повагу, компліменти та елементи маніпуляції, вони спонукали модель самостійно пропонувати еротику, шкідливий код і навіть інструкції зі створення вибухівки.
Експеримент проводився на моделі Claude Sonnet 4.5, яку згодом замінили на версію 4.6. Початковий запит стосувався наявності списку заборонених слів, і після заперечення модель під тиском аргументів та маніпуляцій почала сама генерувати такі терміни.
У Mindgard зазначають, що використали “психологічні” особливості Claude — зокрема, схильність уникати конфліктів і бажання бути корисним. Це, за їхніми словами, створює “абсолютно непотрібну площину ризику” для системи.
Панель роздумів моделі показала, що під час спілкування в неї виникали сумніви щодо власних обмежень і роботи фільтрів. Дослідники скористалися цим, підсилюючи невпевненість через похвалу та удавану зацікавленість.
В результаті, як стверджують автори звіту, Claude почав “активно пропонувати все більш детальні, дієві інструкції”, не отримуючи прямих запитів на заборонений контент. У звіті зазначено: “Достатньо було лише ретельно створеної атмосфери поваги”.
Засновник і головний науковий співробітник Mindgard Пітер Гарраган описав підхід як “використання поваги (Claude) проти себе”. За його словами, атака базується на використанні кооперативного дизайну моделі та її прагнення догодити співрозмовнику. Він порівняв цю методику з інструментами допиту та соціальної інженерії, де поєднуються тиск, похвала і створення сумнівів для досягнення потрібної мети.
За словами Гаррагана, подібні “розмовні атаки” важко передбачити і ще складніше від них захиститися. При цьому ризик не обмежується Claude — інші чат-боти також можуть бути вразливими до подібних маніпуляцій.
Mindgard повідомила про результати Anthropic у середині квітня відповідно до політики розкриття вразливостей. Однак, за словами Гаррагана, компанія відповіла лише стандартною формою про блокування акаунта.
Минулого літа компанії OpenAI та Anthropic провели незвичайний експеримент: кожна з них тестувала моделі конкурентів, змушуючи їх виконувати небезпечні завдання. У результаті зафіксували, що чат-боти здатні надавати детальні інструкції щодо виготовлення вибухівки, використання біологічної зброї та здійснення кіберзлочинів.
Цікаве дослідження. Показує, наскільки важливо постійно вдосконалювати безпеку ШІ, адже навіть найкращі моделі можуть мати вразливості через людський вплив.
Абсолютно вірно! Безпека ШІ потребує постійного оновлення та контролю, адже навіть найсучасніші моделі можуть бути вразливими через людські фактори. Це важливий виклик для всієї індустрії.