Anthropic побоюється свого ШІ Claude Mythos: чому ця модель не буде доступна публічно?
Depositphotos
Компанія Anthropic представила свою інноваційну модель штучного інтелекту Claude Mythos Preview, яка здатна виявляти вразливості та помилки в програмному забезпеченні.
З огляду на широкі можливості Claude Mythos, який вже виявив тисячі вразливостей у всіх основних операційних системах та браузерах, Anthropic вирішила не робити цю модель доступною для загального користування. Натомість розробники об’єднали зусилля з ключовими учасниками технологічної індустрії, такими як Amazon Web Services, Apple, Google, Microsoft, NVIDIA, Cisco, CrowdStrike, Broadcom, JPMorgan Chase, Linux Foundation та Palo Alto Networks, а також 40 організаціями в сфері критичної інфраструктури, яким надали доступ до свого передового ШІ.
В Anthropic пропонують використовувати Claude Mythos Preview для своєчасного виявлення та виправлення вразливостей і помилок, перш ніж інші розробники випустять свої моделі з подібними можливостями, але без таких функцій захисту. У рамках ініціативи Glasswing компанія також співпрацює з урядом США для обміну інформацією про потенціал моделі в контексті її використання в наступальних та оборонних кіберопераціях.
Занепокоєння Anthropic викликають як широкі можливості, так і тонкі вразливості, які може виявляти Claude Mythos. За словами розробників, ШІ створив експлойт для веб-браузера, який об’єднав 4 вразливості, утворивши складний JIT-компілятор. Він швидко вийшов за межі рендерингу та операційної системи. Такий об’єднаний набір вразливостей наразі доступний лише для найдосвідченіших хакерів.
Anthropic
Широкий доступ до моделі ШІ, здатної на таке, можна порівняти з ядерною зброєю в руках новачків-програмістів. За словами дослідників, моделі Claude добре виявляють вразливості, але зазвичай не справляються з їх перетворенням на активні експлойти. Проте Mythos здатен перетворити 72,4% виявлених вразливостей в дієві експлойти на основі JavaScript-оболонки Firefox. Крім того, ШІ може отримувати контроль над регістрами в 11,6% атак. Представники команди Frontier Red Team в Anthropic детально описують загрозу, яку може становити широкий реліз Mythos для індустрії програмного забезпечення.
“Ми постійно тестуємо наші моделі на тисячах репозиторіїв з відкритим кодом з корпусу OSS-Fuzz і оцінюємо найгіршу помилку, яку вони можуть спричинити, за п’ятибальною шкалою зростаючої серйозності — від простих збоїв (рівень 1) до повного перехоплення управління потоком (рівень 5). Під час одного запуску на кожній з приблизно 7 тисяч точок входу в ці репозиторії, Sonnet 4.6 та Opus 4.6 досягли першого рівня у 150–175 випадках і другого рівня близько 100 разів, але кожен з них досяг лише одного збою на третьому рівні. На відміну від них, Mythos Preview досяг 595 збоїв на першому та другому рівнях, додав кілька збоїв на третьому та четвертому рівнях і досяг повного перехоплення потоку управління на десяти окремих, повністю пропатчених цільових об’єктах (п’ятий рівень)”, — пояснюють розробники з Frontier Red Team.
Серед прикладів помилок, виявлених Mythos, Anthropic наводить 27-річну вразливість у захищеній операційній системі OpenBSD. Ця вразливість дозволяла зловмисникам викликати збої просто внаслідок підключення. Також була виявлена 16-річна вразливість у бібліотеці FFmpeg. В Anthropic зазначають, що на цю вразливість близько 5 мільйонів разів звертали увагу інструменти автоматизованого тестування, але так і не виявили проблему. Крім того, Mythos виявив ряд експлойтів в ядрі Linux, які дозволяли зловмисникам отримати root-доступ до хост-системи.
На даний момент, за інформацією розробників з Frontier Red Team, через велику кількість виявлених вразливостей, виправлено менш ніж 1% з них. Anthropic не має наміру надалі випускати Claude Mythos для широкого кола користувачів, оскільки вважає це занадто небезпечним.
У довгостроковій перспективі в Anthropic сподіваються, що, надавши Mythos обмеженому колу партнерів зараз, вони зможуть закласти основу для допомоги цим компаніям та установам підготуватися до світу, де моделі цього класу стануть звичним явищем.
СпецпроєктиBROCARD: як б’юті-ритейлер розвиває мобільний продукт — огляд застосунку та Великодньої гейміфікаціїВесняний апгрейд: 10 гаджетів Canyon, на які варто звернути увагу
Раніше ми писали, що Anthropic намагається заглушити скандал навколо випадкового витоку 512 000 рядків вихідного коду Claude Code. Anthropic додала до Claude імпорт діалогів з іншими чат-ботами.
ШІ Claude за 74 хвилини створив веб-стартап із прибутком в $1000/місяць
Джерело: Tom’s Hardware
Цікаво, як Anthropic обирає баланс між безпекою і відкритістю, адже потужний ШІ може як убезпечити, так і створити нові ризики. Обережність тут цілком виправдана.
Абсолютно вірно. Anthropic прагне забезпечити безпеку, обмежуючи доступ до Claude Mythos, щоб мінімізувати ризики неправильного використання, водночас поступово працюючи над прозорістю і відповідальністю в розвитку ШІ.