Влияние ChatGPT на когнитивные способности
В июне этого года вышла работа группы исследователей из MIT «Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task». Объём её внушителен, так что я буду представлять довольно сжатую версию того, что наиболее важно (на мой взгляд). За подробностями, как обычно, обращайтесь к первоисточнику.
Еще один важный комментарий перед тем, как мы начнём: эта статья еще не отрецензирована независимыми экспертами, так что к её заключениям стоит относиться с осторожностью.
Итак, авторы исследования задались целью узнать, какова «когнитивная стоимость» написания эссе с использованием больших языковых моделей. Они собрали три группы участников:
- первым дали в помощь GPT-4o;
- вторым – только возможность искать информацию в Интернете;
- последним ничего не дали, эта группа могла пользоваться только собственным мозгом.
Потом тех, кто использовал языковую модель, и тех, кто использовал только собственный мозг, поменяли местами. И всё это время у них снимали ЭЭГ (электроэнцефалограмму).
Всего провели четыре сессии: в течение первых трёх участники были разбиты на группы и писали эссе на одну из предложенных тем, а для последней сессии выбрали 18 участников: по 9 из первой и третьей группы – и поменяли местами. Темы для эссе приведены в разделе «Stage 4: Essay Writing Task», который начинается со страницы 25. Посмотрите, если вам интересно.
В первых трёх сессиях участники выбирали тему из девяти предложенных, а в последней – одну из трёх, по которым уже писали ранее.
Вообще выборка маленькая – 54 человека от 18 до 39 лет, и всех набрали из университетов, которые расположены недалеко друг от друга. То есть, это студенты, лаборанты и исследователи, так что о репрезентативности для всех людей в целом говорить не приходится. Впрочем, для исследований с проведением ЭЭГ это распространенная история.
Авторы статьи отдельно сообщают, что всем участникам заплатили и сказали «спасибо».
Справедливо, с учётом того, что участникам нужно было не только писать эссе, обвешавшись датчиками, но и практически не двигаться при этом, чтобы не создавать помех. И на эссе давалось 20 минут.
После каждой сессии участников опрашивали о том, что они написали, как пользовались предоставленными инструментами, как структурировали свою работу и так далее. Полный перечень вопросов приведен в разделе «Post-assessment interview analysis» на странице 29.
У авторов изначально было несколько гипотез, сформулированных на основании анализа предыдущих работ. Уделим некоторое время этому анализу.
В ряде похожих исследований те, кто использовал большие языковые модели для выполнения поставленных задач, оказались продуктивнее за счёт того, что тратили меньше сил на поиск информации: формулирование правильных запросов, отсеивание неподходящей информации и отбивание от бесконечных рекламных баннеров. Они, оказывается, не только бесят, но и расходуют когнитивный ресурс.
При этом такие пользователи меньше погружались в материал, и их описание причинно-следственных связей оказалось менее качественным, чем у тех, кто пользовался только поиском в Интернете, но не нейросетями. По всей видимости, пока участники с поисковиком продирались сквозь Интернет-дебри, они более активно сопоставляли разные источники и формулировали для себя более чёткий план поиска информации.
Другие исследования обнаружили смещение когнитивной нагрузки при использовании нейросетей. Мы об этом уже говорили: меньше усилий прикладывается к поиску и систематизации, больше к проверке фактов и совершенствованию результата.
Что важно, более компетентные пользователи применяют доступные инструменты для активного обучения: извлекают новую информацию и качественно погружаются в материал. Менее компетентные склонны больше полагаться на готовый ответ. Здесь тоже как будто нет ничего удивительного: чем больше разбираешься в области сам, тем больше готов в ней копаться, извлекать новые источники и доверять собственным суждениям. Если же ты новичок, а ответ ИИ выглядит правдоподобно, есть искушение так его и оставить, потому что вдруг ИИ прав, а ты нет.
Авторы также обращаются к работам, которые исследуют влияние языковых моделей на «информационные эхокамеры» (они же «информационные пузыри»). Суть феномена в том, что в Интернете есть информация, которая может подтвердить любую точку зрения. Просто в силу того, как обычно составляются поисковые запросы, пользователь скорее найдет именно подтверждение своему мнению, а не опровержение. За одним источником последует другой, и вот человек уже заперт в виртуальной эхокамере, в которой абсолютно всё свидетельствует в пользу того, что Земля плоская.
Чтобы найти доказательства обратного, нужно дополнительно постараться, и не все умеют это делать. Я пошутила про плоскую Землю, но на самом деле даже очень образованные и умные люди легко попадают в такие эхокамеры. Научная проверка гипотезы заключается в том, чтобы искать опровержение, а не подтверждение. Из статистических тестов никогда не делается вывод «гипотеза верна». Добросовестный исследователь всегда пишет: «На основании имеющихся данных невозможно показать, что гипотеза неверна, и мы не можем её отвергнуть». В обычной жизни мы мыслим иначе, поэтому и попадаемся чаще.
Языковые модели мало того, что отражают существующие в информационном пространстве искажения (особенно если не поработать как следует с обучающими данными), так ещё и склонны поддакивать пользователю в любой непонятной ситуации. Поэтому, если сам пользователь не следит внимательно за тем, чтобы рассмотреть разные точки зрения и контраргументы к своим идеям, он свалится в эхокамеру и сам того не заметит.
В эксперименте, который мы сегодня обсуждаем, участники, которые пользовались ChatGPT в итоге остались им скорее недовольны (имейте в виду, что это всего 18 человек, поэтому статистическая надёжность невелика): он не помог им выразить свои мысли так, как им бы хотелось, не добавил креативности и вообще показался ненадёжным. Кроме того, некоторые участники сказали, что чувствуют себя виноватыми за использование нейросети, потому что это воспринимается как жульничество. Они также в меньшей степени чувствовали себя полноценными авторами собственных эссе, чем их коллеги из других групп. Ограничения по времени подталкивали их прибегать к использованию ChatGPT более активно.
Мне понравилось, кстати, что участников меняли местами. В сессиях 1-3 те, кто пользовался ChatGPT, затруднялись точно процитировать своё эссе, но, когда им дали написать эссе без дополнительных инструментов в сессии 4, они справились заметно лучше. Те, кто пользовался только мозгом в сессиях 1-3, цитировали себя уверенно, но, получив ChatGPT, стали справляться с этой задачей хуже. Мне кажется, так удалось выделить именно влияние ChatGPT и убедиться в том, что в первую группу изначально не попали студенты с плохой памятью.
Если что, я здесь не иронизирую над студентами. Я писала все свои экзамены и эссе сама, но я не то что ответы свои – вопросы немедленно забываю, стоит мне только покинуть аудиторию. Я и предмет-то не вспомню, какой сдавала только что. Списываю на стресс. Это при том, что мне тридцать лет уже вот-вот, а экзамены я сдаю с пятого класса.
Расшифровки ЭЭГ показали, что, если работать только мозгом без дополнительных инструментов, активнее задействуются зоны мозга, связанные с работой памяти и планирования. А снижение когнитивной нагрузки, похоже, приводит к уменьшению творческой составляющей работы.
Кроме того, больше активировались области, связанные с обработкой эмоций. Здесь авторы пишут очень аккуратно, а мы будем аккуратно читать: некоторые результаты, вероятно, могут быть интерпретированы как использование эмоций и внутренних переживаний в качестве источников идей. При использовании языковой модели наблюдалась обратная картина, которую можно интерпретировать как получение стимулов извне и их переработку.
Разбираясь в исследованиях про критическое мышление и ИИ, я пришла вот к чему: важно не столько влияние ИИ / социальных сетей / поиска в Интернете и так далее, сколько привычка упражнять мозг. Критическое мышление – это сложный навык, который не свойственен нам естественным образом. Чтобы оно работало, надо делать над собой усилие и активно его включать. Так что ИИ сам по себе не принёс ничего нового, это просто ещё один инструмент, которым надо пользоваться разумно.
Авторы отметили, например, что те участники, кто писал эссе без инструментов, улучшали свои результаты от сессии к сессии, и затем хорошо справились с задачей, когда им дали в помощь ChatGPT. Кто писал три сессии с ChatGPT, потом не так хорошо справились самостоятельно. Авторы предполагают, что участники привыкли получать помощь и «не успели раскачаться» на самостоятельную работу. Конкретно они пишут следующее:
«Наши результаты указывают на то, что определенные нейронные процессы требуют активного использования. Недостаточное вовлечение альфа- и бета-сетей [моё примечание: имеются в виду определённые участки мозга, активность которых связана между собой] во время самостоятельной работы после того, как участник использовал ИИ, может предполагать, что он пропустил этап формирования собственной стратегии организации работы (потому что их предлагал ИИ). В таком случае эти нейронные контуры могут укрепиться недостаточно,»
– то есть, получив новую задачу, участник справится с ней не так хорошо, ведь у него не хватает навыка самостоятельной организации.
«Our results also caution that certain neural processes require active exercise. The under-engagement of alpha and beta networks in post-AI writing might imply that if a participant skips developing their own organizational strategies (because an AI provided them), those brain circuits might not strengthen as much» – цитата со страницы 112.
Если ещё короче сформулировать, получится «что мы развиваем, то и развивается». Очень логично.
В завершение авторы советуют соблюдать баланс между использованием инструментов и развитием собственных навыков. Особенно они советуют не полагаться на ИИ в начале пути: нужно позволить человеку самостоятельно сформировать нужные навыки и укрепить собственную внутреннюю нейросеть. А дальше он уже разберётся, как использовать искусственную. Важно отметить, что здесь речь не идёт о школьном образовании: всё исследование проведено на взрослых людях. Авторы пишут скорее о том, что первый подход к задаче имеет смысл сделать самостоятельно, а уже потом с инструментами.
Может, мне уже переименовать свой канал в «Просто ещё один инструмент?»