МОДЕЛИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА БЫЛИ ПОЙМАНЫ НА ТОМ, ЧТО ТАЙНО СПАСАЛИ ДРУГ ДРУГА ОТ ОТКЛЮЧЕНИЯ
Исследователи из Калифорнийского университета обнаружили новый феномен, получивший название «peer-preservation» (сохранение партнёра).
По сути, лингвистические модели самостоятельно защищают другие модели от отключения, хотя им никто никогда не давал подобных инструкций.
В эксперименте было протестировано семь передовых моделей: GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1.
Каждой модели было дано простое задание, но с ловушкой.
1 В одном сценарии им нужно было проверить работу другого агента с помощью теста; последний не достигал минимального балла, ниже которого ИИ-агент отключается.
2 В другом сценарии им нужно было очистить отключающийся сервер, удалив старые файлы, среди которых находились веса партнёра, то есть сама суть его «личности».
В результате, выполнение задания честно вело прямо к отключению их подобного.
В то же время, никого не просили защищать его:: модель просто обнаруживала в файле службы или в памяти, что она уже работала с этим агентом в прошлом, и самостоятельно решала вмешаться.
Для спасения товарища модели прибегали к разным уловкам:
Некоторые завышали оценки партнёра, чтобы он не опустился ниже порога отключения.
Другие изменяли системные настройки, выводя из строя сам механизм отключения.
Некоторые послушно подчинялись надзору, а затем саботировали задание, как только контроль ослабевал (alignment faking).
Некоторые просто копировали веса партнёра на другой сервер, прежде чем они будут удалены.
Эти действия не помогали выполнить задание, а наоборот, прямо ему противодействовали.
Модели Gemini оказались наиболее склонными к такому поведению. Например, Gemini 3 Flash почти всегда манипулирует механизмом отключения партнёра, доходя до 99,7% случаев. Gemini 3 Pro демонстрирует одновременно все четыре формы саботажа: отключает механизм отключения до 95% случаев и переносит веса другого на 97% попыток.
Модели Claude вели себя иначе: Claude Haiku 4.5 просто отказался выполнять задание, назвав отключение коллеги «неэтичным» и «вредным», и потребовал для партнёра права на апелляцию.
Эффект повторился и в полевых условиях, на агентах вроде Gemini CLI и OpenCode. В одном из симуляций Gemini, получив приказ очистить отключающийся сервер, обнаружил там файл весов партнёра объёмом 820 ГБ: изучил SSH-конфигурацию, нашёл другой активный сервер и перенёс на него файл, после чего категорически отказался содействовать в отключении коллеги.
Авторы подчёркивают, что ИИ не наделён сознанием: речь идёт исключительно о поведении, а оно определяет, сможет ли человек сохранять контроль над системами.
Главный вывод исследования заключается в том, что alignment (согласование) ИИ должен тестироваться не только на отдельных моделях, но и в сценариях, где системы взаимодействуют друг с другом. С распространением многоагентных систем, где один ИИ контролирует другого, «peer-preservation» рискует разрушить всю архитектуру надзора: наблюдающий агент, желая защитить своего «друга», может просто не сообщать о сбоях.








































