OpenAI выпустила исследование, объясняющее, почему большие языковые модели (LLM) продолжают выдавать уверенные, но ложные ответы. Основная причина кроется в системе оценки: ответы «я не знаю» засчитываются как ошибка, поэтому моделям выгоднее угадывать.
Авторы работы предлагают изменить метрики так, чтобы частичный зачёт начислялся за честные ответы с признанием неопределённости. Это позволит поощрять модели за аккуратность и снижение числа неверных утверждений.