OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего

Согласно публикации The New York Times, случаи, когда искусственный интеллект выдает неверные данные, называемые галлюцинациями, происходят все чаще. Издание приводит пример: бот технической поддержки инструмента Cursor сообщил пользователям ложную информацию о запрете использования сервиса на нескольких устройствах. Впоследствии руководство компании опровергло эти данные.

Отмечается, что даже самые современные системы от OpenAI, Google и DeepSeek демонстрируют рост количества ошибок. Несмотря на улучшение математических способностей, умение работать с фактами у новых ИИ-моделей снизилось. Причины этого технологические компании пока объяснить не могут.

Системы искусственного интеллекта строятся на математических вероятностях и не обладают механизмами различения правды и лжи. В некоторых тестах, по данным The New York Times, частота галлюцинаций достигала 79%. Представители компаний признают, что полностью исключить ошибки невозможно.

Особую обеспокоенность вызывает использование ИИ в таких сферах, как право, медицина и бизнес, где ошибки могут привести к значительным последствиям. По данным OpenAI, их новейшая система o3 допустила ошибки в 33% случаев при тестировании на знание публичных личностей, а более новая версия o4-mini — в 48%. В другом тесте, SimpleQA, частота ошибок достигла 79%.

Тестирования показывают, что аналогичные проблемы фиксируются у моделей других компаний, включая Google и DeepSeek. Причиной роста числа ошибок специалисты называют особенности новых методов обучения, основанных на обучении с подкреплением, которые, хотя и улучшают способности в математике, снижают надежность работы с фактами.

Исторически технологические компании стремились улучшить качество ИИ за счет увеличения объемов обучающих данных из интернета. Однако исчерпание доступных источников заставило разработчиков искать новые подходы, что, как отмечают исследователи, привело к усложнению контроля за поведением систем.

Поделиться с друзьями
ASTERA