June 11, 2023

Секретный список чтения ИИ 

Вопрос о том, что находится в списке чтения ИИ, больше, чем академический. Боты не разумны. Они не понимают мир так, как человек может. Но если вы хотите познакомиться с кем-то — или с чем-то , в данном случае — вы смотрите на их книжную полку. Чат-боты не просто изобретают ложные факты, увековечивают вопиющую чушь и выдавливают пресную, гомогенизированную чепуху. Оказывается, они еще и гигантские ботаны.

В дополнение к списку современной государственной школы — Чарльзу Диккенсу и Джеку Лондону, Франкенштейну и Дракуле — есть несколько забавных исключений. Мы были рады увидеть там «Мальтийского сокола»; на наш взгляд, Дэшил Хэмметт — лучший крутой детективный писатель, чем более часто цитируемый Рэймонд Чендлер. Но если вы пропустите материалы, находящиеся в общественном достоянии, и посмотрите на список книг, защищенных авторским правом, которые проглотил GPT-4 он не сильно отличается от более раннего GPT 3.5 проявляется истинный характер бота. Конечно, «Братство Кольца» занимает третье место, но вы должны быть очень преданы Толкину, чтобы не отскочить от «Сильмариллиона» (девятое место). «Мечтают ли андроиды об электрических овцах?» занимает 21-е место, всего на несколько делений ниже «Нейроманта» — двух определяющих произведений киберпанка, жанра, который, по иронии судьбы, прозвенел предупредительным сигналом искусственного интеллекта.

Вопрос: имеет ли это значение? Что нас ждет, если у GPT-4 читательские предпочтения 14-летнего слабака из 1984 года? (Включая, как оказалось, «1984» под номером 2?)

То, что читает ИИ, имеет значение

База данных GPT-4 огромна — по некоторым данным, до петабайта. Таким образом, ни один роман (или 50 романов) не мог научить его, в частности, тому, что стать смотрителем отеля с привидениями — это не лекарство от писательского ступора (№ 49) или что страх убивает разум (№ 13). Океан данных затопляет острова фантастики. «Набор данных, используемый при предварительном обучении, представляет собой достаточно большую выборку текста, — говорит Тед Андервуд, информатик из Университета Иллинойса, — что я не уверен, насколько сильно предвзятость конкретных жанров влияет на поведение получающихся моделей."

Присутствие этих конкретных книг в цифровой душе GPT-4 может просто отражать их присутствие в общем диком Интернете, из которого были извлечены данные. Когда команда Баммана включает в свои тесты книги, являющиеся общественным достоянием, оценки становятся выше — «Приключения Алисы в Стране чудес» возглавляют список с колоссальными 98%. Команда Баммана действительно обнаружила, что книги, за которые LLM набрали высокие баллы, были представлены в Интернете примерно в одинаковых пропорциях. В этом есть смысл. Чат-боты не выбирали свои книги. Интернет-культура сделала это.

Тем не менее, нетрудно представить, что вся эта научная фантастика, которую читают боты, окажет на них такое же пагубное влияние, как и все другие данные, на которых они обучались, создавая такие же случайные предубеждения, которые всегда закрадываются в вывод чат-ботов. Иногда они говорят расистские вещи. Они могут резюмировать дезинформацию так, как будто это правда, потому что одна и та же неправда часто появляется в Интернете.

Книги, которые мы, люди, читаем, меняют наши представления о мире. Но технически чат-боты ни о чем не думают. Они строят статистические и векторные отношения между словами.

Пока OpenAI и другие создатели чат-ботов не откроют свои наборы обучающих данных для всеобщего обозрения, будет трудно понять, какое влияние их списки чтения оказывают на их результаты.

А если вам еще больше интересна тема ИИ, вы хотите знать больше и не пропускать новинки и обзоры, подпишитесь на канал в тг, мне будет приятно -

https://t.me/Ai_Crew