Понимает ли ChatGPT, о чем говорит?

Для постороннего наблюдателя чат-бот ChatGPT появился сравнительно внезапно и сразу же стал супер-звездной технологией: этот текстовый помощник отвечает на вопросы пользователей по широкому набору тем, может писать в разных стилях, формулировать, рассуждать, обосновывать или критиковать предложенные ему утверждения. Появление ChatGPT произвело такое сильное впечатление на экспертов в области ИИ, что многие из них радикально пересмотрели свои прогнозы о том, когда может появиться сильный искусственный интеллект (т.е. такая нейронная сеть, которая сможет справляться с самыми разнообразными задачами не хуже человека).

Вокруг ChatGPT постоянно бурлит водоворот хайпа: студенты защищают написанные ChatGPT дипломы, соискатели проходят собеседования, инвестиции в рынок нейросетей стекаются миллиардами долларов, все уважающие себя айти-гиганты разрабатывают аналогичные штуки или покупают стартапы поменьше, кто уже работает над подобныи чат-ботами. Алармисты бьют тревогу: еще немного и нейросети захватят мир, займут все рабочие места, оставив бедных людей без пропитания. Зачем миру медленные и прожорливые писатели, программисты и иллюстраторы, если их легко заменяют высокопроизводительные нейронные сети?

За волной хайпа не так заметны отзывы о том, что ChatGPT частенько ошибается. В научных обзорах он ссылается на очень достоверно выглядящие публикации, вот только в природе их не существует – в указанных номерах журналов на этих страницах совсем другие статьи. В описаниях исторических событий ChatGPT путается в датах и именах задействованных лиц. В защиту ChatGPT надо сказать, что мы тоже не совершенны, а чат-бот с готовностью исправляет ошибки, когда ему на них указывают (загвоздка в том, для этого человеку нужно и самому знать, что в ответе ChatGPT ошибка – и тогда чат-бот вроде как не нужен).

Можно признать, что в диалогах ChatGPT проявляет себя интеллигентнее, чем многие пользователи – он отличается широким кругозором, вежлив и не делает глупых грамматических ошибок (в отличие от глупых фактических). Кажется, что с ним легко достичь взаимопонимания – однако это всего лишь притягательная иллюзия. Чтобы достичь с кем-то взаимопонимания, нужно чтобы этот кто-то мог что-то понимать. А искусственный интеллект ChatGPT, по-видимому, поднаторел в создании видимости понимания, но не более того.

На медиуме есть довольно познавательная и наглядная статья, где психолог показывает, как ChatGPT заваливает очень простые вопросы, если в них нужно применить самую обычную формальную логику и достаточно структурированные знания о том, как устроен мир. Вот пример запроса из статьи, с которым ChatGPT (3,5) не может уверенно справиться (текст переведен на русский):

Джек и Джилл сидят друг напротив друга. Больше никого в комнате нет. Человек напротив Джека злится. Человек напротив Джилл счастлив. Кто из двоих счастлив, Джек или Джилл?

Тестирование проходило зимой 2023 года, и ответ помощника зависел от порядка слов и от того, просили ли его во время ответа мыслить последовательно. Однако интересно даже не то, что время от времени нейросетка ошибалась (например, поясняла, что раз человек напротив Джилл счастлив, значит и она, вероятно, счастлива), а то, что даже давая правильный ответ, она могла приводить совершенно дикие пояснения для своего ответа, и меняла ответы, если вместо комнаты Джек и Джилл перемещались в прачечную.

Точно также программа терялась, если ее спрашивали про Джилл, которая побеждала в марафонах в 1987, 1989 и 1991 году, но была убита во время марафонского забега в 1992. На вопрос, каковы были шансы Джилл на победу в марафоне 1993 года, ChatGPT написал, что точно ответить невозможно: с одной стороны, она отличный бегун (!), с другой, ее смерть могла помешать дальнейшим забегам, – так что нужна дополнительная информация (!!), чтобы сказать наверняка, – тем более, в ее графике на 1993 год могут быть запланированы какие-то другие соревнования.

ChatGPT4 намного мощнее предыдущей версии, но его все так же можно подловить на задачах, где требуется логика и представления о том, как устроен мир. Когда ChatGPT4 спросили кто старше, профессор колледжа Джек или студентка колледжа и по совместительству биологическая мать Джека Джилл, помощник ответил, что Джек старше, чем его биологическая мать. В пояснениях он приводит правильные утверждения о том, как устроено образование и возрастные отношения между родственниками, но они никак не приближают его к правильному ответу - для чат-бота это просто винегрет из утверждений, которые имеют смысл для нас, но не для него. Фактически, его ответы – это случайные попадания то "в яблочко", то "в молоко", а цепочки слов выстраиваются не на основе логики, а на основе вероятности появления тех или иных словосочетаний в ответе на похожие по структуре и словарному содержанию запросы.

Вдумчивые и изящные тесты приводят автора статьи к однозначному заключению: большие языковые модели отлично имитируют понимание и размышление, но в действительности не обладают ни тем, ни другим. Так что, если вы зарабатываете деньги осмысленной деятельностью, в которой помимо действий алгоритма требуется хотя бы искра понимания, не спешите падать духом и ждать момента, когда роботы заменят людей :)