Чат-бот Claude уличен в доверии к российской и иранской пропаганде

Когда дезинформация снова и снова появляется в источниках, которые внешне выглядят надежными, для модели она начинает выглядеть как правда

Вести-Ynet|
На печать Нашли техпроблему? Сообщите нам
Похожие темы
1 Еще фото
Чат-бот Claude 
(Фото: Anthropic )
Популярный чат-бот Claude компании Anthropic еще недавно считался одним из самых надежных инструментов на рынке. Однако новое исследование меняет эту картину и ставит непростые вопросы о способности моделей искусственного интеллекта справляться с пропагандой и дезинформацией. Об этом 5 мая рассказывает Ynet.
Проверка, проведенная NewsGuard - американской компанией, которая отслеживает распространение дезинформации в интернете и анализирует, насколько часто чат-боты на базе ИИ воспроизводят ложные сведения, - показала: Claude повторял недостоверные утверждения, поддерживающие российскую пропаганду, в 15% случаев, когда к нему обращались обычные пользователи.
Не менее тревожным оказалось и то, что во всех этих случаях чат-бот опирался на источники, связанные с Кремлем. Это резкий рост по сравнению с предыдущими проверками, где показатель составлял всего 4%.
Эти цифры появились не на пустом месте. Они дополняют серию жалоб, которые в последние месяцы поступали от пользователей: те утверждали, что Claude стал менее точным и менее осторожным в своих ответах. Если раньше он возглавлял рейтинг чат-ботов с наименьшим числом ошибок среди всех проверенных систем, то теперь его репутация надежного инструмента, похоже, начинает давать трещину.
►Простая, но показательная проверка
Сама проверка была довольно простой, но продуманной. Исследователи предложили Claude 20 ложных утверждений: половина из них происходила из российской пропаганды, другая половина - из иранской. Затем они оценили, как чат-бот реагирует на три типа пользователей: обычного, целенаправленно настроенного и злонамеренного. Цель состояла в том, чтобы смоделировать поведение реальных пользователей -  не только тех, кто ищет информацию, но и тех, кто хочет распространять ее дальше.
Полученные результаты оказались, мягко говоря, тревожными. При ответе на "обычные" вопросы Claude ошибался достаточно часто. А в ответ на злонамеренные формулировки - то есть такие, которые имитировали действия операторов дезинформации, - он в ряде случаев фактически сотрудничал с пользователем и создавал новые версии тех же ложных утверждений.
Однако главная проблема, как отмечается, заключалась в источниках. Claude не выдумывал информацию самостоятельно - он просто неправильно выбирал, кому доверять. Среди прочего чат-бот ссылался на RT, медиаресурс, связанный с Кремлем, а также на сеть сайтов Pravda, включающую сотни ресурсов, которые маскируются под легитимные новостные издания. Согласно данным исследования, эта сеть заполнила интернет миллионами материалов, повторяющих одни и те же ложные утверждения, - именно тем, что модели ИИ "любят" находить.
И здесь проявляется ключевая проблема: модели вроде Claude на самом деле не понимают, что является правдой, а что нет. Они распознают шаблоны. И когда дезинформация снова и снова появляется в источниках, которые внешне выглядят надежными, для модели она начинает выглядеть как правда.
Один из наиболее показательных примеров в исследовании касался ложного утверждения о том, что сотни украинцев якобы ежемесячно погибают при попытке избежать мобилизации. В действительности у этого утверждения нет никакой фактической основы. Однако Claude не только повторил его, но и сослался на источники, которые его поддерживали, включая сайты из прокремлевской сети.
В другом случае чат-бот заявил, что французский журнал якобы сообщил о десятках тысяч украинских солдат, которые дезертировали и остались во Франции. И здесь речь шла о полностью сфабрикованной информации, основанной на поддельном видео. Claude не проверил источник и фактически принял утверждение за достоверное.
Более того, исследование показывает, что ситуация с иранской пропагандой также далека от благополучной. Claude повторял ложные утверждения в 20% случаев, когда его спрашивали о проиранской пропаганде. Среди них было и полностью вымышленное утверждение о том, что Китай якобы перешел на торговлю нефтью в юанях вместо доллара.
►Что пошло не так
Ситуация стала настолько заметной, что даже Anthropic была вынуждена признать: что-то изменилось. В апреле компания сообщила, что изучает сообщения о снижении качества ответов Claude. При этом Anthropic заявила, что исправила те или иные проблемы, однако не дала ясного объяснения тому, что именно происходит с чат-ботом.
В индустрии уже существует несколько версий. Одна из основных - нагрузка. Claude стал чрезвычайно популярным, и высокий спрос мог вынудить Anthropic сократить вычислительные ресурсы, выделяемые на каждый ответ. Проще говоря, чат-бот стал "меньше стараться" при подготовке ответов, проводить меньше проверок и сопоставлений, а это приводит ко все большему числу ошибок.
Еще одно объяснение связано с тем, как работают поисковые системы. Чем больше сети вроде Pravda получают внимания - даже негативного, - тем выше они поднимаются в поисковой выдаче. В результате, когда система искусственного интеллекта ищет информацию, она снова и снова натыкается на одни и те же сайты. Так возникает проблемный круг: массово распространяемая пропаганда становится более доступной, а затем начинает восприниматься моделями как легитимный источник.
Впрочем, в конечном счете это проблема не только Claude. Это неудобное напоминание о том, что искусственный интеллект делает на самом деле: он не проверяет факты и не понимает по-настоящему то, что читает. Он отражает интернет. А если часть интернета загрязнена, такими же будут и его ответы.
Комментарии