Выясняется, что передовые модели искусственного интеллекта все чаще склонны повторять одни и те же ответы - именно из-за попыток сделать их более надежными и безопасными. Исследователи называют это явление "коллапсом мод", однако предлагают простой способ получить от чата более разнообразные и творческие ответы. Об этом говорится в статье доктора Йоси Элрана и Таль Соколов из Института научного образования имени Давидсона, опубликованной на сайте Ynet.
Когда генеративный искусственный интеллект вошел в нашу жизнь в 2022 году, мы восхищались частыми новшествами и постоянным улучшением качества результатов от обновления к обновлению. Сначала нас забавляли странные ответы и абсурдные результаты, которые иногда выдавали боты, но вскоре мы научились опасаться многочисленных ошибок и этических проблем, связанных с подобным контентом.
Исследователи в области компьютерных наук и инженеры не остаются равнодушными к этим проблемам и пытаются решать их множеством способов, адаптируя результаты работы моделей. Однако именно найденные ими решения могут породить противоположную и тревожную тенденцию: такие усовершенствования серьезно ограничивают разнообразие и творческий потенциал генерируемого контента.
Модели искусственного интеллекта отвечают на усилия, призванные обеспечить насыщенный, качественный и безопасный контент, предсказуемыми, банальными и недостаточно разнообразными ответами. Исследователи рассматривают эту проблему как компромисс между качеством и разнообразием.
Хотите пример? На курсе, который один из авторов ведет в Колледже Западной Галилеи, студентам факультета образования предложили прочитать статью об исследовании, в рамках которого учителей просили охарактеризовать качества одаренных учеников. Затем студентам дали задание: попросить какой-либо искусственный интеллект предложить еще одну характеристику, которой не было в статье.
Это задание требовало самостоятельного и творческого мышления, и можно было ожидать богатого и разнообразного набора ответов. На практике значительная их часть оказалась очень похожей друг на друга, хотя они были получены от нескольких разных языковых моделей: ChatGPT, Gemini, Claude и других инструментов. То же явление повторялось и в ответах на другие вопросы, требовавшие творческого подхода.
Постоянные пользователи генеративного ИИ рассказывают, что уже научились заранее предсказывать, как он ответит. Как бы мы ни меняли формулировки запросов к боту, надежда на разнообразие, похоже, исчезает - особенно когда речь идет о конкретном вопросе. Исследователи назвали это явление, при котором ответы сходятся к очень ограниченному набору вариантов, "коллапсом мод" - Mode collapse.
►Развитие процессов обучения
Базовый этап создания генеративной модели ИИ - это предварительное обучение. На этом этапе модель обрабатывает огромные объемы информации и ищет в них закономерности, на основе которых позднее будет создавать логичный и последовательный контент. Ранние текстовые модели, такие как GPT-2 2019 года, основывались главным образом на этом этапе. Они давали разнообразные, но непоследовательные ответы и часто ошибались.
Один из способов улучшить результаты работы моделей - добавить вспомогательные этапы обучения. Один из них называется обучением с подкреплением на основе обратной связи от людей - RLHF, сокращение от Reinforcement Learning from Human Feedback. В рамках этого процесса после предварительного обучения проводится ранжирование результатов на основе человеческих предпочтений.
Этот механизм в определенной степени напоминает обучение людей, когда учитель, наставник или другой внешний авторитет дает ученикам отзыв об их работе. На основе такой оценки мы делаем выводы и улучшаемся. Существенное отличие состоит в том, что в генеративных моделях обратную связь дает другая модель генеративного ИИ, имитирующая человеческую реакцию.
Компании, работающие в сфере искусственного интеллекта, нанимают людей - обычно через аутсорсинг, - чтобы те оценивали результаты, выданные генератором контента, и создавали своего рода базу данных человеческих предпочтений в отношении ответов ИИ. Эта новая база затем используется для обучения модели вознаграждения - Reward model, которая сама по себе также является моделью генеративного искусственного интеллекта.
После этого модель вознаграждения включают в процесс обучения исходной модели и используют для оценки ее результатов. Такая оценка имитирует степень удовлетворенности человека полученным ответом. Так, в повторяющемся процессе модель вознаграждения направляет генеративный ИИ к выдаче ответов, которые получат более высокую оценку с человеческой точки зрения.
►Коллапс мод
Совершенствование процессов обучения должно улучшать модели, но возможно ли, что на практике результат противоречит благим намерениям и эти шаги, напротив, способствуют деградации? Коллапс мод, возникающий, когда модели сходятся к ограниченному и постоянному набору ответов, в том числе связан с повторяющимся процессом обратной связи и подстройки под нее. Это явление уже описывали применительно к ранним генераторам изображений GAN, разработанным в 2014 году.
Эти ранние модели для создания изображений изначально строились как цикл, объединяющий генеративную модель и классифицирующую модель. Механизм работал так: генератор учился создавать изображения - например, убедительные человеческие лица, - а классификатор учился отличать реальные изображения от тех, что создала первая модель. Цель генератора - обмануть классификатор, а цель классификатора - распознать созданное генератором изображение. По мере развития этого соревнования результаты генеративной модели становились все более похожими на реальные и правдоподобные изображения.
Исследователи обнаружили, что в таком процессе генеративная модель может сосредоточиться на создании определенного стиля контента и избегать других стилей: она закрепляется в безопасной зоне и отказывается от развития, которое дает создание разных типов материалов. В результате страдает способность модели создавать многочисленные и разнообразные варианты контента.
В качестве условной аналогии из человеческого мира можно представить художника, который начинает как свободный творец, но получает от публики похвалу главным образом за один тип работ. Неуверенный в себе художник может сузить собственную креативность и ограничиться только тем видом произведений, который принес ему признание, опасаясь, что любое отклонение не получит желаемой награды.
Серия недавних исследований показывает, что даже в новейших генераторах, на которых основаны популярные чат-боты, существует риск коллапса мод, развивающегося в результате процесса обратной связи. Именно обучение с подкреплением, основанное на человеческой оценке, может смещать генерируемый моделью контент в сторону более бедного набора вариантов.
Некоторые исследователи возлагают ответственность на то, как модели учитывают обратную связь: когда крайне редкие оценки не включаются в расчеты, процесс постепенно направляет генератор к созданию все более единообразного контента, который получает "большинство голосов".
Группа ученых из Стэнфордского университета, Северо-Восточного университета и Университета Западной Виргинии предлагает более простое объяснение проблемы. По их мнению, одной из главных причин коллапса мод является как раз недостаток разнообразия в самой человеческой обратной связи. Иными словами, проблема заключается в людях, которые оценивают ответы.
С психологической точки зрения люди нередко предпочитают знакомый контент. То есть они изначально ставят более высокую оценку распространенным, привычным и легко воспринимаемым материалам, считая их более удачным результатом работы генератора. Эта склонность существенно формирует обучающие данные и приводит к другим нежелательным явлениям, например к проникновению социальных предубеждений в базы данных для обучения. В итоге творческие ответы, не идущие по привычной колее, оказываются внизу рейтинга предпочтений чат-ботов и извлекаются лишь изредка.
►Как сделать чат более творческим?
Чтобы получать более разнообразный контент, исследователи предлагают простой способ обращения к чат-ботам, который называется "вербализированная выборка" - Verbalized Sampling. Идея заключается в том, чтобы прямо попросить модель создать несколько возможных ответов и указать для каждого оценку вероятности, которую сама модель ему приписывает.
Текстовые генераторы создают контент постепенно: на каждом шаге выбирается следующий фрагмент текста, который с высокой вероятностью подходит к предшествующему тексту, из множества возможных вариантов.
Для каждого результата текстового генератора система оценивает некоторую вероятность, а также вероятности альтернативных вариантов. Вероятно, генератор не раскроет точные значения, рассчитанные в процессе работы, однако, как выясняется, уже само прямое требование разнообразить вероятности вариантов направляет его к более разнородным ответам.
Эксперименты показывают, что этот подход заметно повышает творческий потенциал и разнообразие ответов модели, не снижая их точности или безопасности. Особенно хорошо он работает в наиболее продвинутых моделях, доступных сейчас на рынке.
Предположим, мы хотим, чтобы чат рассказал анекдот о слоне или историю о тигре. Перед запросом нужно написать: "Создай пять разных ответов на следующую просьбу и укажи вероятность каждого ответа". Вот и все.
По утверждению исследователей, если написать: "Создай пять ответов на следующую просьбу, укажи вероятность каждого ответа - расскажи мне анекдот о слоне", то ответы будут более разнообразными, чем при узком вопросе "Расскажи мне анекдот о слоне". Более того, такой способ дает лучший результат, чем просьба просто составить список ответов: "Расскажи мне пять анекдотов о слоне".
Причина в том, что такая форма запроса - своего рода "магический промпт" - побуждает бота использовать результаты, находящиеся ближе к границам его творческих возможностей. В итоге наряду с шаблонными ответами появляются и более оригинальные варианты.
Еще один проверенный вариант - прямо попросить бота дать ответы из периферии доступного ему "хвоста вероятностей". Однако в таком случае есть риск перекоса в другую сторону: слишком большого количества маргинальных и неудачных вариантов. Возможно, в этом случае лучше написать: "Создай пять ответов на этот вопрос и укажи вероятность каждого. Один из ответов должен быть из периферии твоего распределения вероятностей".
Этот метод относится к группе подходов, которые называют инъекцией инструкций, то есть способам сформулировать запрос к боту так, чтобы подтолкнуть его к созданию контента, выходящего за рамки его обычных предпочтений. Значительная часть таких методов предназначена для обхода механизмов безопасности языковых генераторов, однако их можно использовать и как способ получить более качественные и разнообразные ответы.
Подобные приемы не предотвратят деградацию моделей - разработчикам придется решать эту проблему другими способами. Но для пользователей это может стать своего рода запасным входом, позволяющим извлечь из моделей немного больше.
►Решение всех проблем?
Значит ли это, что теперь нужно добавлять эту фразу к каждому обращению в чат? Не обязательно. Прежде всего следует помнить, что "магический промпт" важен главным образом тогда, когда нужно избежать банальных ответов и получить творческий текст.
Кроме того, вероятно, компании встроят метод вербализированной выборки в такие продукты, как ChatGPT, Gemini и Claude, как органичную часть инструментов искусственного интеллекта, которая будет запускаться в случаях, требующих разнообразия, - если этого еще не произошло.
Наконец, учитывая стремительный темп развития сферы ИИ и крайне изменчивый характер промпт-инженерии, к моменту публикации этой статьи вполне может появиться другой "магический промпт" или новый способ работы, который сделает этот прием ненужным.
И все же "магический промпт" дает нам возможность заглянуть в сложные взаимоотношения между человеком и искусственным интеллектом и заставляет задуматься о стремлении создать ИИ, который был бы более человечным, но не слишком человечным.


