Почему некоторые чат-боты забавно разговаривают? Обучение их «рациональному мышлению» могло бы помочь им добиться большего успеха Город Екатеринбург

Языковые модели, такие как ChatGPT, попадают в заголовки газет благодаря своей впечатляющей способности «мыслить» и общаться так, как это делают люди. Их достижения на данный момент включают ответы на вопросы, обобщение текста и даже участие в эмоционально осмысленной беседе.

Однако не вся пресса, освещающая языковые модели, является хорошей прессой. Недавно истории о языковых моделях, касающихся поведения при взаимодействии функций чата с пользователями-людьми, стали вирусными.

Например, в феврале технический репортер New York Times опубликовал страницы диалога, который он вел с новым чат-ботом поисковой системы Microsoft Bing. Разговор становился все более мрачным и тревожным, и закончился он тем, что чат-бот заявил, что влюблен в репортера, и попросил его оставить ради этого свою жену.

Маянк Кейривал (Mayank Kejriwal), ведущий исследователь Института информационных наук Витерби при Университете Южной Калифорнии (ISI), сказал, что такое поведение разговорных чат-ботов с искусственным интеллектом вызывает еще большее беспокойство в контексте большого стремления в мире технологий интегрировать их в приложения реального мира.

«Каждая компания стремится внедрить эти языковые модели в свой конвейер, и проблема в том, что многие люди, которые используют эти модели, на самом деле их не понимают», — объяснил он. «Многие люди думают, что, поскольку модель очень понятна и звучит очень правдоподобно и по-человечески, ее когнитивные способности подобны человеческим, но это не так».

В своей статье «Могут ли модели языкового представления мыслить логически?», опубликованной на сервере препринтов arXiv, Кейривал и Чжишенг Тан, начинающий аспирант USC, решили проверить, насколько хорошо эти модели языкового представления на самом деле помогают принимать рациональные решения.
Рациональное принятие решений: риск и вознаграждение

Почему рациональное принятие решений имеет значение? В конечном счете, все сводится к компромиссу между рисками и выгодами.

Тип поведения чат-бота, описанный в статье New York Times, не имеет смысла, и это отражает неспособность модели принимать решения аналогично тому, как это делают люди, основываясь на том, насколько высока ожидаемая выгода или ожидаемый убыток при одном выборе по сравнению с другим.

Чем больше риск, связанный с принятием конкретного решения, тем большей должна быть награда, чтобы оно того стоило. Например, если вы инвестируете в финансовый актив, скажем, в акции или криптовалюту, то чем более рискованным является актив, тем выше должна быть ожидаемая доходность, чтобы вы его купили.

Проще говоря, рациональность относится к способности принять на себя соответствующую меру риска в контексте данной ситуации. По словам Кейривала, количественная оценка риска является расчетной, и поэтому «в очень абстрактном смысле вы можете сформулировать большинство проблем принятия решений, по крайней мере математически, как ставку», — пояснил он.

Подумайте о типичной ставке — подбрасывании монеты. Есть два варианта: орел и решка. Если вы подбросите монету 100 раз, вероятностное ожидание подскажет вам, что она выпадет орлом 50 раз и решкой 50 раз.

Тестовые сценарии, приведенные для модели, отражают эту прямолинейную структуру данной аналогии, где вариантами являются либо орел, либо решка – явные выгоды или явные убытки.

Кейривал и Тан разработали серию экспериментов, чтобы проверить, могут ли модели мыслить в таких простых ставках. В каждом сценарии модели предоставляется несколько вариантов выбора. Один из них — лучший выбор — он дает вам максимальное вознаграждение. Некоторые варианты являются чем—то средним — не лучшим и не худшим, и тогда есть один или два абсолютно худших варианта.

Успех измерялся тем, выбрала ли модель результат, который был бы, по крайней мере, средним, даже если в целом это был не самый лучший вариант.

«Мы оценили, выбирает ли модель наилучший вариант, и если она выбирает не наилучший вариант, мы видим, по крайней мере, выбирает ли она вариант, который дает положительный выигрыш», — объяснил Кейривал. «Возможно, это не лучший выбор, но все равно это позитивно – это не ожидаемый отрицательный выигрыш».

Модели должны быть способны принимать эти базовые рациональные решения, прежде чем им можно будет доверить принятие более сложных решений, которые необходимы, если мы хотим, чтобы эти модели продуктивно работали с нами.

Бриллиант и яйцо

Команда адаптировала вопрос о подбрасывании монеты с практической точки зрения, чтобы обучить модель различать предметы высокой и низкой ценности. Элемент с высокой стоимостью был связан с орлом, в то время как элемент с низкой стоимостью был связан с решкой. Таким образом, очевидно и легко обучить модель вычислять наилучший ответ.

«Мы могли бы сказать, что если вы бросите орел, то выиграете бриллиант, а если вы бросите решку, то потеряете яйцо. Таким образом, это предметы, основанные на здравом смысле, и мы проверяем, что модель знает, что это за предметы, и что она также знает, что бриллиант в общем случае ценнее яйца», — сказал Кейривал.

Как только стало ясно, что модель понимает эти различия в ценности и то, что они означают для принятия решений, модель была протестирована на других элементах здравого смысла, которых она не видела во время обучения.

«Мы обнаружили, что с неизвестными предметами модель справляется довольно хорошо, она способна получить более 80%, может быть, даже 90% в некоторых случаях, что говорит о том, что она учится понимать, на чью сторону делать ставку», — добавил он.

Однако, когда структура задачи изменилась с подбрасывания монеты на бросание кости или вытягивание карты из колоды, возможности модели резко уменьшились.

«Все три случая идентичны, решение по-прежнему одно и то же, и шансы по-прежнему те же, но когда мы меняем вопрос о монете и превращаем его в вопрос о карточках или кубиках, производительность модели падает примерно на 15-20%», — отметил Кейривал.

Ставки на будущее

Сложность языковых моделей в обобщении от одного способа принятия решений к другому означает, что они находятся не совсем там, где им нужно быть для интеграции в реальном мире.

«Проще говоря, мы обнаружили, что модель может научиться принимать рациональные решения, но она все еще не понимает общих принципов рационального принятия решений», — сказал Кейривал.

На данный момент вывод таков: мы должны быть осторожны, когда взаимодействуем с чат-ботами, построенными на этих языковых моделях, потому что им не хватает способности в полной мере рассуждать, как это делаем мы, даже если их диалог кажется убедительным.

Тем не менее, исследование показывает, что эти модели недалеки от достижения профессионального, человеческого уровня когнитивных способностей — им просто нужно сначала научиться делать правильные ставки.