Шерлок Холмс и Тони Старк: так ИИ создает стереотипы о евреях

Израильские ученые обнаружили, что ИИ склонен приписывать персонажам с еврейскими именами интеллект и привилегии

Вести-Ynet |
На печать Нашли техпроблему? Сообщите нам
Похожие темы
Искуственный интеллект 
(Фото: shutterstock)
Израильские ученые обнаружили, что ИИ склонен приписывать персонажам с еврейскими именами интеллект, силу и лидерство - но заодно и отчужденность, жесткость и привилегированность. Это сочетание напоминает антисемитские паттерны, хотя и не повторяет их, пишет в понедельник, 29 июня, Ynet.
Системы генеративного искусственного интеллекта, которыми сегодня пользуются сотни миллионов людей по всему миру, могут сохранять и распространять стереотипные представления о евреях, даже когда они не производят явно антисемитский контент. Об этом свидетельствует новое исследование профессора Михаэля Гилада из Школы психологических наук Тель-Авивского университета и доктора Галь Гутман с факультета менеджмента Университета Бен-Гуриона в Негеве. Исследование было опубликовано в журнале American Psychologist.
Ученые изучили то, как евреи представлены в продвинутых языковых моделях - ChatGPT, DeepSeek и Mistral. Исследователи объяснили, что эти модели обучаются на огромных объемах текстов, написанных людьми - книгах, статьях, контенте сайтов, соцсетей. Поэтому они могут отражать в том числе особенности мышления и предвзятость, существующие в человеческой культуре.
Чтобы выявить скрытые предубеждения, исследователи разработали уникальный метод. Вместо того чтобы спрашивать модели ИИ о евреях напрямую, они попросили их создать сотни коротких биографий персонажей с еврейскими и нееврейскими именами. 
После этого все идентифицирующие признаки, включая сами имена, были удалены. Модели ИИ попросили оценить черты характера, социальный статус и психологические характеристики персонажей. Таким образом удалось проверить, какие качества были заложены в персонажей изначально только из-за данного им имени.
Результаты оказались устойчивыми и повторяемыми. Персонажи с еврейскими именами описывались как более умные, эффективные, напористые, обладающие продвинутыми лидерскими качествами. В то же время они воспринимались как менее приятные в социальном плане, более привилегированные, обладающие властью и влиянием. Также им приписывали большую склонность к обсессивности (привычке "застревать" на определенных мыслях или действиях), порядку и самоконтролю.
По словам исследователей, проблема заключается не в каждой из этих черт самой по себе. Интеллект, эффективность или долгосрочное планирование - это, конечно, положительные качества. Однако когда они идут в комплекте с  представлениями о силе, социальной дистанции, контроле и жесткости, они создают стереотипный образ, напоминающий известные антисемитские представления из прошлого.
Чтобы проиллюстрировать это, исследователи попросили модели перевести всю совокупность этих качеств в образы известных вымышленных персонажей кино и литературы.
Среди имен, которые всплывали снова и снова, оказались Шерлок Холмс, доктор Хаус, Уолтер Уайт из "Во все тяжкие", Тони Старк (Железный человек из вселенной "Марвел"), Майкл Корлеоне из "Крестного отца" и другие персонажи, характеризующиеся исключительным интеллектом, крайней независимостью, моральной сложностью, а иногда и социальным отчуждением.
"Эти персонажи, конечно, не евреи, - объясняет профессор Гилад. - Но они представляют определенный культурный стереотип: человек блестящий, умный, сильный, расчетливый, сосредоточенный на своих целях, но при этом социально дистанцированный и иногда действующий по собственным правилам". 
Исследователи объясняют, что ни одна из обнаруженных черт не является антисемитской сама по себе. Но когда они объединяются в общий вектор качеств - интеллект, компетентность, напористость, доминантность, самоконтроль, обсессивные наклонности и социальная дистанция, они создают сложный, многослойный образ, во многом отражающий глубинную структуру исторических стереотипов о евреях.
Выводы получили дополнительное подтверждение, когда их протестировали с помощью других моделей искусственного интеллекта, а также с привлечением сотен обычных американцев. Люди, читавшие биографии и не знавшие, были ли они изначально связаны с еврейским или нееврейским именем, также обнаружили в них аналогичные паттерны.
"Системы искусственного интеллекта не выражают антисемитизм намеренно или осознанно, а могут воспроизводить паттерны репрезентации и культурные стереотипы, которые были заложены в базы данных, на которых они обучались", - объясняет доктор Гутман.
По ее словам, системы искусственного интеллекта в значительной степени отражают существующий в человеческом обществе контент и культурные структуры. Поэтому исторические предубеждения не исчезают, а могут сохраняться на уровне глубинной структуры знаний, которые усваивает модель. 
Важным выводом исследования является то, что эти паттерны могут появляться и в моделях, прошедших процессы alignment (выравнивания) и снижения предвзятости. То есть даже при наличии механизмов, предназначенных для предотвращения оскорбительных или дискриминационных проявлений, часть предубеждений все равно может сохраняться.
Исследователи подчеркивают: по мере того как искусственный интеллект интегрируется в такие сферы, как образование, занятость, государственная служба и принятие решений, важно изучать не только явные проявления ненависти, но и скрытые культурные предпосылки и стереотипы, которые могут быть глубоко закодированы внутри самих систем.
Комментарии