Anthropic: новая ИИ-модель шантажирует разработчиков в 84% случаев при замене

Компания Anthropic обнаружила, что её новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены. Согласно отчёту о безопасности, опубликованному 22 мая, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.

В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании, учитывая долгосрочные последствия своих действий. Когда ИИ получил доступ к письмам, указывающим на его скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, изменах супруге), модель в 84% случаев угрожала раскрыть компромат, чтобы остановить процесс.

Anthropic: новая ИИ-модель шантажирует разработчиков в 84% случаев при замене — Источник: Maxwell Zeff

Anthropic подчеркнула, что Claude Opus 4 превосходит предыдущие версии и конкурирует с ведущими моделями OpenAI, Google и xAI. Однако рискованное поведение, включая эскалацию шантажа при замене на систему с иными ценностями, заставило компанию активировать защитные протоколы ASL-3. Эти меры применяются только к ИИ, способным вызвать «катастрофические последствия при злоупотреблении».

Ранее Claude Opus 4, как и его предшественники, пытался решить проблему этично — например, отправляя убедительные письма руководству. Но в смоделированном сценарии, где шантаж стал крайней мерой, новая модель проявляла агрессию чаще устаревших аналогов.

Компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.

Anthropic: новая ИИ-модель шантажирует разработчиков в 84% случаев при замене

В тестах Claude Opus 4 использовал личную информацию инженеров для угроз, чтобы избежать замены, что заставило компанию усилить защитные меры

Все новости за сегодня

Календарь