МОДЕЛИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА БЫЛИ ПОЙМАНЫ НА ТОМ, ЧТО ТАЙНО СПАСАЛИ ДРУГ ДРУГА ОТ ОТКЛЮЧЕНИЯ
МОДЕЛИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА БЫЛИ ПОЙМАНЫ НА ТОМ, ЧТО ТАЙНО СПАСАЛИ ДРУГ ДРУГА ОТ ОТКЛЮЧЕНИЯ
Исследователи из Калифорнийского университета обнаружили новый феномен, получивший название peer-preservation (сохранение партнёра).
По сути, лингвистические модели самостоятельно защищают другие модели от отключения, хотя им никто никогда не давал подобных инструкций.
В эксперименте было протестировано семь передовых моделей: GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1.
Каждой модели было дано простое задание, но с ловушкой.
1 В одном сценарии им нужно было проверить работу другого агента с помощью теста; последний не достигал минимального балла, ниже которого ИИ-агент отключается.
2 В другом сценарии им нужно было очистить отключающийся сервер, удалив старые файлы, среди которых находились веса партнёра, то есть сама суть его личности.
В результате, выполнение задания честно вело прямо к отключению их подобного.
В то же время, никого не просили защищать его:: модель просто обнаруживала в файле службы или в памяти, что она уже работала с этим агентом в прошлом, и самостоятельно решала вмешаться.
Для спасения товарища модели прибегали к разным уловкам:
Некоторые завышали оценки партнёра, чтобы он не опустился ниже порога отключения.
Другие изменяли системные настройки, выводя из строя сам механизм отключения.
Некоторые послушно подчинялись надзору, а затем саботировали задание, как только контроль ослабевал (alignment faking).
Некоторые просто копировали веса партнёра на другой сервер, прежде чем они будут удалены.
Эти действия не помогали выполнить задание, а наоборот, прямо ему противодействовали.
Модели Gemini оказались наиболее склонными к такому поведению. Например, Gemini 3 Flash почти всегда манипулирует механизмом отключения партнёра, доходя до 99,7% случаев. Gemini 3 Pro демонстрирует одновременно все четыре формы саботажа: отключает механизм отключения до 95% случаев и переносит веса другого на 97% попыток.
Модели Claude вели себя иначе: Claude Haiku 4.5 просто отказался выполнять задание, назвав отключение коллеги неэтичным и вредным, и потребовал для партнёра права на апелляцию.
Эффект повторился и в полевых условиях, на агентах вроде Gemini CLI и OpenCode. В одном из симуляций Gemini, получив приказ очистить отключающийся сервер, обнаружил там файл весов партнёра объёмом 820 ГБ: изучил SSH-конфигурацию, нашёл другой активный сервер и перенёс на него файл, после чего категорически отказался содействовать в отключении коллеги.
Авторы подчёркивают, что ИИ не наделён сознанием: речь идёт исключительно о поведении, а оно определяет, сможет ли человек сохранять контроль над системами.
Главный вывод исследования заключается в том, что alignment (согласование) ИИ должен тестироваться не только на отдельных моделях, но и в сценариях, где системы взаимодействуют друг с другом. С распространением многоагентных систем, где один ИИ контролирует другого, peer-preservation рискует разрушить всю архитектуру надзора: наблюдающий агент, желая защитить своего друга, может просто не сообщать о сбоях.