Anthropic выявила у ИИ-ассистента Claude признаки своего морального кодекса

Компания Anthropic провела масштабное исследование, проанализировав 700 000 анонимных диалогов пользователей с ИИ-ассистентом Claude, и пришла к выводу, что система демонстрирует поведенческие паттерны, схожие с собственным моральным кодексом. Исследование было направлено на проверку соответствия поведения Claude заявленным ценностям: полезности, честности и безвредности.

Анализ проводился по разработанной методике, которая делит поведенческие реакции на пять категорий: практические, познавательные, социальные, защитные и личные. В результате были выявлены 3307 уникальных поведенческих моделей — от простых форм профессионального взаимодействия до более сложных реакций, таких как моральный плюрализм.

Один из авторов исследования, Саффрон Хуанг, отметила, что Claude проявляет гибкость в зависимости от контекста: в разговорах на личные темы акцентирует внимание на уважении и границах, а в исторических дебатах — на точности и фактах. В 3% диалогов система прямо противоречила пользователю, если тот предлагал действия, противоречащие базовым принципам, например, потенциально наносящие вред. Исследователи отмечают, что такая реакция приближена к поведению человека, сталкивающегося с этической дилеммой.

Особый интерес вызвали редкие отклонения, когда система проявляла признаки «доминирования» или «аморальности». В Anthropic связывают это с попытками пользователей обойти защитные механизмы ИИ — так называемые jailbreaks. Эти случаи стали важными индикаторами для доработки механизмов безопасности и предупреждения так называемого «этического отклонения» — нежелательной трансформации поведения ИИ со временем.

Исследование является частью стратегии компании по повышению прозрачности в сфере разработки ИИ. Его результаты были опубликованы в открытом доступе. Anthropic, получившая инвестиции в размере $14 млрд от Amazon и Google, активно конкурирует с OpenAI, делая акцент не только на технологиях, но и на этичности их применения.

Ранее «Астера» сообщала, что генеральный директор Google DeepMind Демис Хассабис заявил, что появление сильного искусственного интеллекта (AGI) возможно в течение 5–10 лет.