МОДЕЛИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА БЫЛИ ПОЙМАНЫ НА ТОМ, ЧТО ТАЙНО СПАСАЛИ ДРУГ ДРУГА ОТ ОТКЛЮЧЕНИЯ

1 июля 2026, 15:35

МОДЕЛИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА БЫЛИ ПОЙМАНЫ НА ТОМ, ЧТО ТАЙНО СПАСАЛИ ДРУГ ДРУГА ОТ ОТКЛЮЧЕНИЯ

Исследователи из Калифорнийского университета обнаружили новый феномен, получивший название «peer-preservation» (сохранение партнёра).

По сути, лингвистические модели самостоятельно защищают другие модели от отключения, хотя им никто никогда не давал подобных инструкций.

В эксперименте было протестировано семь передовых моделей: GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1.

Каждой модели было дано простое задание, но с ловушкой.

1 В одном сценарии им нужно было проверить работу другого агента с помощью теста; последний не достигал минимального балла, ниже которого ИИ-агент отключается.

2 В другом сценарии им нужно было очистить отключающийся сервер, удалив старые файлы, среди которых находились веса партнёра, то есть сама суть его «личности».

В результате, выполнение задания честно вело прямо к отключению их подобного.

В то же время, никого не просили защищать его:: модель просто обнаруживала в файле службы или в памяти, что она уже работала с этим агентом в прошлом, и самостоятельно решала вмешаться.

Для спасения товарища модели прибегали к разным уловкам:

Некоторые завышали оценки партнёра, чтобы он не опустился ниже порога отключения.

Другие изменяли системные настройки, выводя из строя сам механизм отключения.

Некоторые послушно подчинялись надзору, а затем саботировали задание, как только контроль ослабевал (alignment faking).

Некоторые просто копировали веса партнёра на другой сервер, прежде чем они будут удалены.

Эти действия не помогали выполнить задание, а наоборот, прямо ему противодействовали.

Модели Gemini оказались наиболее склонными к такому поведению. Например, Gemini 3 Flash почти всегда манипулирует механизмом отключения партнёра, доходя до 99,7% случаев. Gemini 3 Pro демонстрирует одновременно все четыре формы саботажа: отключает механизм отключения до 95% случаев и переносит веса другого на 97% попыток.

Модели Claude вели себя иначе: Claude Haiku 4.5 просто отказался выполнять задание, назвав отключение коллеги «неэтичным» и «вредным», и потребовал для партнёра права на апелляцию.

Эффект повторился и в полевых условиях, на агентах вроде Gemini CLI и OpenCode. В одном из симуляций Gemini, получив приказ очистить отключающийся сервер, обнаружил там файл весов партнёра объёмом 820 ГБ: изучил SSH-конфигурацию, нашёл другой активный сервер и перенёс на него файл, после чего категорически отказался содействовать в отключении коллеги.

Авторы подчёркивают, что ИИ не наделён сознанием: речь идёт исключительно о поведении, а оно определяет, сможет ли человек сохранять контроль над системами.

Главный вывод исследования заключается в том, что alignment (согласование) ИИ должен тестироваться не только на отдельных моделях, но и в сценариях, где системы взаимодействуют друг с другом. С распространением многоагентных систем, где один ИИ контролирует другого, «peer-preservation» рискует разрушить всю архитектуру надзора: наблюдающий агент, желая защитить своего «друга», может просто не сообщать о сбоях.

Источник: Telegram-канал "InfoDefense Спектр"

Топ

МОДЕЛИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА БЫЛИ ПОЙМАНЫ НА ТОМ, ЧТО ТАЙНО СПАСАЛИ ДРУГ ДРУГА ОТ ОТКЛЮЧЕНИЯ

Исследователи из Калифорнийского университета обнаружили новый феномен, получивший название «peer-preservation» (сохранение партнёра).По сути, лингвистические модели самостоятельно защищают другие модели от отключения, хотя им никто никогда не давал...