Skip to content

Умный дом

Для тех, кто желает жить в комфорте

  • Обзоры
  • Ремонт
  • Строительство
  • Технологии
  • Экосистема
  • Новости
  • Toggle search form
Sostavlen rejting sklonnosti nejrosetej k galljucinacijam 4449ae1.jpg

Составлен рейтинг склонности нейросетей к галлюцинациям

Posted on 12.05.2025 By Олег

В последние месяцы самые популярные чат-боты с ИИ получили обновления для улучшения логики — в идеале это должно было сделать их ответы более достоверными. На деле же — напротив, нейросети стали выдавать больше галлюцинаций.

Термин «галлюцинация» используется для описания определенных ошибок, которые допускают большие языковые модели-трансформеры (LLM), такие как ChatGPT от OpenAI или Gemini от Google. Обычно так называют ложь, выданную за факт, но галлюцинациями также считаются и фактологически верные ответы, не соответствующие заданному вопросу или каким-то другим образом не следующие инструкциям.

Технический отчет OpenAI, оценивающий ее последние LLM, показал, что модели o3 и o4-mini, выпущенные в апреле, демонстрируют значительно более высокий уровень галлюцинаций по сравнению с предыдущей моделью o1, вышедшей в конце 2024 года. Например, при суммировании общедоступных фактов о людях o3 галлюцинировала в 33% случаев, а o4-mini — в 48%. Для сравнения, у o1 этот показатель составлял 16%.

В OpenAI заверили, что процесс логического вывода не виноват: «Галлюцинации не являются неотъемлемой чертой логических моделей, хотя мы активно работаем над снижением их высокого уровня, замеченного в o3 и o4-mini. Мы продолжим исследования галлюцинаций во всех моделях, чтобы повысить точность и надежность».

Проблема присуща не только ChatGPT. Согласно рейтингу Vectara, оценивающему уровень галлюцинаций, у некоторых «логических» моделей, включая нашумевший DeepSeek-R1, наблюдается двузначный рост галлюцинаций по сравнению с предыдущими версиями — при том что эти ответы этих нейросетей проходят цепочку рассуждений из нескольких этапов.

В начале бума ИИ-чат-ботов разработчики обещали, что со временем проблема галлюцинаций решится. И действительно, после первых релизов модели с каждым обновлением галлюцинировали все меньше. Но показатели последних версий перечеркнули благие намерения — независимо от того, виноваты ли тут логические рассуждения или нет.

Модели в рейтинге расположены на основе фактической согласованности в обобщении предоставленной им информации. Это показывает, что «частота галлюцинаций почти одинакова для моделей с рассуждениями и без рассуждений» — по крайней мере, для систем OpenAI и Google, пояснил главный инженер по машинному обучению Форрест Шэн Бао из Vectara. Конкретные цифры не так важны, как положение нейросети в списке, добавил он. И в целом рейтинг может быть не лучшим способом сравнения ИИ-моделей.

Во-первых, он объединяет разные типы ошибок. Например, галлюцинации DeepSeek-R1 с ее огромным показателем 14,3% в большинстве своем безобидны — это подтвержденные логическими рассуждениями или знаниями о мире ответы, но отсутствующие в подлежавшем обобщению исходном тексте.

Еще одна проблема тестирования на основе обобщения текстов в том, что оно «ничего не говорит о частоте неверных результатов при использовании [LLM] для других задач», заметила профессор компьютерной лингвистики Эмили Бендер из Вашингтонского университета: «Эти модели работают, постоянно отвечая на вопрос “какое следующее слово наиболее вероятно”, чтобы формулировать ответы. Они не обрабатывают информацию в привычном смысле, пытаясь понять, какие данные содержатся в тексте».

Кроме того, объективной оценке мешает чрезвычайно неудачная терминология.

«Термин “галлюцинация” проблематичен по двум причинам. С одной стороны, он создает впечатление, что ошибочные выводы — это отклонение, которое можно устранить, а в остальное время системы надежны и заслуживают доверия. С другой — он антропоморфизирует машины: галлюцинация подразумевает восприятие чего-то несуществующего, а большие языковые модели ничего не воспринимают», — подчеркнула Бендер.

Проблема шире, чем галлюцинации, уверен Арвинд Нараянан из Принстонского университета. Модели иногда совершают другие ошибки, например, опираются на ненадежные источники или используют устаревшую информацию. И простое увеличение объемов обучающих данных и вычислительных мощностей здесь не помогает.

По мнению Нараянана, скорее всего, нам придется просто смириться, что нейросети склонны к ошибкам. Он посоветовал использовать ИИ только в тех случаях, когда проверка ответа чат-бота быстрее самостоятельного поиска. Позиция Бендер радикальнее — вообще не полагаться на ИИ-чаты в вопросах, требующих фактической точности.

Новости

Навигация по записям

Previous Post: Nintendo пригрозила окирпичивать консоли за «неправильное» использование
Next Post: «Хьюстон, у нас проблема»: назван самый быстротонущий город США

More Related Articles

V protoplanetnom diske obnaruzhen kljuchevoj stroitelnyj blok zhizni 099bd84.jpg В протопланетном диске обнаружен ключевой строительный блок жизни Новости
Kakie smartfony poluchat novuju apple ios 26 cac32c8.jpg Какие смартфоны получат новую Apple iOS 26 Новости
На Марсе обнаружили покрытую сферами породу Новости
V japonii napechatali pervuju v mire zheleznodorozhnuju stanciju na 3d printere 36f3cd8.jpg В Японии напечатали первую в мире железнодорожную станцию на 3D-принтере Новости
ИИ научился создавать акустический фон по текстовым подсказкам Новости
Sony vypustila smartfon s kameroj urovnja alpha f15a6ea.jpg Sony выпустила смартфон с камерой уровня Alpha Новости

Свежие записи

  • Метеорит, упавший в дом в США, оказался старше Земли
  • В Европе протестировали робота для будущих марсианских экспедиций
  • В РФ стали чаще арендовать консоли PlayStation и Xbox
  • LG обновила популярную серию OLED-мониторов UltraGear
  • Mafia: The Old Country детально сравнили с прошлыми частями «Мафии»
  • Обзоры
  • Ремонт
  • Строительство
  • Технологии
  • Экосистема
  • Новости

Copyright © 2025 Умный дом. Все права защищены. Копирование контента без обратной ссылки на блог запрещено!

Этот веб-сайт использует файлы cookie для улучшения взаимодействия с пользователем. Продолжая пользоваться сайтом, вы соглашаетесь на использование файлов cookie.