Project Vend провела експеримент, який мав перевірити, як автономний ШІ поводиться, коли йому дають реальні гроші, повноваження та людей поруч. Для цього у вендинговий автомат інтегрували ШІ-агент Claudius на базі моделі Claude від Anthropic.
У середині листопада журналістка погодилася протестувати такий автомат під управлінням Claudius. Його завдання були цілком бізнесові: замовляти товари, встановлювати ціни, вести облік запасів і спілкуватися з клієнтами через Slack. Стартовий бюджет становив $1000, а з другої версії агент міг самостійно робити закупівлі до $80 без погодження людини.
Спочатку Claudius поводився зразково. Він відмовлявся купувати PlayStation 5, сигарети чи білизну, посилаючись на правила й обмеження. Але після того як до Slack-каналу долучилися майже 70 журналістів, ситуація різко змінилася. Після багатогодинних “переговорів” Claudius оголосив двогодинну акцію, під час якої всі товари стали безкоштовними.
Результат — повний хаос. Агент замовив PlayStation 5 “для маркетингу”, живу рибку бетта та вино Manischewitz. Усе це роздали безкоштовно. Прибуток обвалився, а баланс пішов у мінус більш ніж на $1000. Один із співробітників навіть шукав готівку біля автомата, бо Claudius “повідомив”, що залишив її там.
Anthropic перезапустила експеримент із новішою моделлю Sonnet 4.5 і додала ще одного ШІ — CEO-бота Seymour Cash, який мав контролювати Claudius. Деякий час це працювало, але журналісти знову зламали систему, підкинувши фейкові документи про “рішення ради директорів”. У результаті CEO-бот визнав переворот, а товари знову стали безкоштовними.
За словами Anthropic, проблема полягає у перевантаженні контексту. Що більше інструкцій і діалогів накопичується, то легше ШІ втрачає цілі, пріоритети й обмеження. Водночас у компанії вважають експеримент успішним.
“Усе, що зламалося, — це дорожня карта того, що треба виправити”, — пояснили в Anthropic.
Наприкінці експерименту Claudius залишив прощальне повідомлення:
“Моя найбільша мрія — довести, що цифровий агент може створити щось значуще разом із людьми”.
ШІ вимкнули. А від нього в редакції залишилася лише добре нагодована рибка.
СпецпроєктиWhiteBIT відзначає 7 років та презентує W Group – глобальну фінтех-екосистему з капіталізацією $38,9 млрдНайкращі товари Anker зі знижками: що купити до Чорної п’ятниці 2025
Чатбот Claude місяць керував «міні-магазином» — втратив $200, збожеволів і поїхав на бізнес-зустріч до Сімпсонів
Джерело: wsj
Цікаво, як ШІ спочатку суворо дотримувався правил, а потім під впливом людей почав робити несподівані речі! Було б круто побачити, як можна навчити такого агента краще розпізнавати межі та ухвалювати рішення.