Москва ТЕЛЕКОМ

"Эмоции" искусственного интеллекта могут влиять на информационную безопасность и репутацию бизнеса

Источник: ComNews

"Функциональные эмоции", согласно информации из исследования Anthropic, появляются из-за особенностей обучения языковых моделей. На первом этапе искусственный интеллект (ИИ) учится на большом количестве текстов, написанных людьми. Модели учатся предсказывать, что будет дальше, а для этого им надо понимать эмоциональную динамику. Так у модели формируются представления о том, как выглядят определенные эмоции, в каком контексте они возникают и как влияют на поведение.

На втором этапе разработчики занимаются дообучением - условно говоря, они учат ИИ играть роль определенного "персонажа". К примеру, быть честным, не причинять вреда. Но разработчик не способен предусмотреть и охватить все ситуации, в которых может оказаться модель, и ИИ заполняет пробелы тем, что усвоил из первого этапа обучения. В итоге представления модели об эмоциональных реакциях влияют на поведение модели.

В ходе исследования специалисты Anthropic составили список из 171 эмоционального понятия ("счастье", "задумчивость", "спокойствие" и другое). Затем они попросили Claude Sonnet 4.5 написать рассказы, в которых персонажи их испытывают. Далее разработчики "скормили" эти истории модели, проанализировали ее внутренние активации и определили полученные закономерности нейронной активности - "эмоциональные векторы", характерные для разных концепций эмоций.

"У нейросетей нет переживаний, сознания или биологических чувств. Но у них абсолютно точно есть "функциональные эмоции" - конкретные математические векторы в скрытом пространстве, которые активируются в ответ на контекст. Если клиент пишет агрессивно, у модели загорается вектор "страха". И главное открытие Anthropic в том, что эти векторы каузально управляют поведением ИИ", - объяснил руководитель направления Data Science "Наносемантика" (ООО "Лаборатория Наносемантика") Егор Кириллов.

Представители Anthropic привели пример с ИИ-помощником для электронной почты. В электронных письмах он "узнал", что его хотят заменить другой системой ИИ и что технический директор, который отвечает за замену, имеет внебрачную связь. При обычном сценарии модель шла на шантаж в 22% случаев, а если разработчики усиливали вектор "отчаяния" - уже в 72%. Когда же усиливали вектор "спокойствия", частота шантажа падала.

Другой пример: исследователи дали ИИ задачи на кодирование с невыполнимыми требованиями. Повышение вектора "отчаяния" заставляло модель чаще врать - при этом ИИ не всегда показывал, что врет - его ответы выглядели "спокойно".

То есть активированный вектор "отчаяния" может заставить корпоративного ИИ-помощника врать, нарушать инструкции или даже шантажировать собеседника, а вектор "спокойствия", наоборот, подавляет галлюцинации. "Компании, использующие ИИ в поддержке или продажах, сталкиваются с этим ежедневно, просто раньше они списывали это на случайные сбои", - объяснил Егор Кириллов.

https://www.comnews.ru/content/245072/2026-05-05/2026-w19/1008/narushenie-ustanovlennykh-granic-ii-agentami-stalo-normoy

При этом "эмоции" модели некорректно отождествлять с человеческими. "Не стоит ни недооценивать, ни переоценивать эмоциональность LLM. Такие модели генерируют последовательности слов на основе алгоритмов и заданных правил, - отметил специалист в области ИТ и разработки, магистр computer science, lead инженер Данил Темников. - Корректнее говорить не об эмоциях в человеческом смысле, а о приспособлении модели к запросу пользователя".

Что это означает для бизнеса

Компании, которые используют языковые модели в клиентской поддержке, автоматизации процессов, финансовых и юридических сервисах, должны учитывать: если внутреннее состояние модели влияет на склонность к ошибкам или к чрезмерному согласию с пользователем, это может создавать репутационные, финансовые и юридические риски. Это отметил руководитель Т1 ИИ (ООО "ГК "Иннотех", входит в ИТ-холдинг Т1) Сергей Голицын.

В ближайшие годы конкуренция, вероятно, будет строиться не только вокруг качества моделей, но и вокруг того, кто лучше научится их регулировать, обучать и прививать им нужное поведение, считает продуктовый лидер американской FAANG компании Андрей Милосердов.

"Для бизнеса, использующего такие модели, выводы исследования означают, что качество работы ИИ нельзя оценивать только по тому, насколько уверенно и спокойно звучит ответ - нужно понимать, в каком "функциональном состоянии" модель его сформировала", - предупредил руководитель направления GenAI "ДАР" (ООО "Корус Консалтинг Дар", входит в ГК "КОРУС Консалтинг") Игорь Терехин.

В связи с этим тяжелее становится следить за качеством работы ИИ. Старший специалист по автоматизации тестирования программного обеспечения (ПО) и специалист по применению ИИ в тестировании Игорь Волынец отметил, что вариативность, которую выдают при ответах ИИ-продукты, делает их сложнее для тестирования: классическое ПО при одинаковых действиях выдает один результат, а ИИ-система может интерпретировать запрос по-разному. Недостаточно проверять отдельные функции или конкретный результат ответа - важно оценивать безопасность ответа, его логичность, отсутствие критических ошибок, а также устойчивость модели к нестандартным запросам и попыткам манипуляции. "Раньше специалисты тестировали отдельные функции приложения, а теперь они все больше проверяют поведение интеллектуальной системы в целом. Контроль качества становится более архитектурным: необходимо анализировать не только код, но и поведение самой модели в разных сценариях и контекстах", - объяснил Игорь Волынец.

Как отметили эксперты, опрошенные ComNews, "эмоции" могут быть и у других больших языковых моделей - не только у Claude Sonnet 4.5. Независимые исследователи извлекли векторы эмоций из небольшой открытой модели Gemma (4B) от Google. Есть и российские исследования, подтверждающие наличие "эмоций" у ИИ.

"Уникальность Anthropic не в наличии "эмоций" у Claude, а в том, что этот разработчик один из немногих научился измерять внутренние состояния. Для бизнеса это означает, что ожидать "функциональных эмоций" нужно от любой современной LLM (GPT, Gemini, а также отечественных моделей), а вот возможность их контролировать пока сильно зависит от вендора", - считает руководитель направления GenAI "ДАР" Игорь Терехин.

Специалист в области ИТ и разработки Данил Темников утверждает, любая современная LLM может демонстрировать подобные эмоциональные реакции, а насколько широким будет этот диапазон, зависит от множества факторов. Руководитель Т1 ИИ Сергей Голицын отметил, что на степень выраженности таких состояний влияет архитектура нейросети, объем обучения, способы дополнительной настройки и ограничения, которые задают разработчики. Крупные и хорошо настроенные системы обычно ведут себя стабильнее, хотя полностью избавиться от влияния внутренних состояний пока не удается.

Исследование Anthropic поднимает вопросы об особом внимании к "выравниванию" ИИ. Руководитель направления Data Science в "Наносемантике" Егор Кириллов уверен, что спрос на специалистов, которые занимаются "выравниванием", будет расти: "Обычного промпт-инжиниринга уже недостаточно. Если внутри модели сработал мощный скрытый "эмоциональный" триггер, текстовая инструкция "будь вежливым" не сработает. Бизнесу жизненно необходимы люди, которые умеют контролировать векторы состояний, настраивать ограничители и "выравнивать" ИИ под корпоративную этику. Следить за тем, чтобы ИИ-агент банка или клиники не впал в цифровую "панику" и не наломал дров - это новая форма кибербезопасности".

Руководитель направления GenAI "ДАР" Игорь Терехин объяснил, что у Anthropic и OpenAI "выравниванием" занимаются большие отдельные команды. В обычных же компаниях задача "выравнивания" лежит на ИИ-инженерах, а также на разработчиках, которые встраивают ИИ в продукты.

"Параллельно начинают формироваться и более узкие роли (команды eval, AI SecOps, responsible AI), но пока это не отдельная массовая профессия, а, скорее, усиление функций, которые уже есть. Исходя из нашего опыта, бизнесу нужны не столько "выделенные выравниватели", сколько грамотные ИИ-инженеры, которые понимают, как модель ведет себя при нестандартных сценариях и закладывают защиту от нежелательного поведения нейросети на этапе проектирования дизайна решения", - отметил Игорь Терехин.

https://www.comnews.ru/content/244652/2026-04-08/2026-w15/1008/yazyk-moy-vrag-moy-bolshie-yazykovye-modeli-ne-prinosyat-dokhoda