Разное
June 25, 2021

«За пять-десять лет нейросети вполне могут научиться нас обыгрывать»

Редакция канала «Аномалия ИКСА» — о нейросетевых и белковых редакторах, операции «Киберкукушка» и о детском ломбожном минзинте

Редакция телеграм-канала «Аномалия ИКСа» — Иван Торубаров (слева) и Сергей Дуликов (справа)

Вопросы интеллектуальных игр могут сочинять не только люди. Уже почти год в телеграм-канале «Аномалия ИКСа» публикуются вопросы, которые генерируют несколько нейросетей. Правда, пока у искусственного интеллекта не получается делать так же, как у живого человека, но результат, как минимум, любопытный. Редакция канала — Сергей Дуликов («Во вторник сможем») и Иван Торубаров («Спи») — провела целый турнир на вопросах нейросетей. Искусственный интеллект пишет не только вопросы, но и вердикты на апелляции, а также генерирует комментарии в обсуждении вопросов. В интервью Сергей с Иваном рассказали о принципах работы нейросетевых моделей, об их сходствах и различиях с людьми и об еще одном турнире с вопросами искусственного интеллекта.

— Кому и как пришла идея научить нейросеть генерировать вопросы интеллектуальных игр?

СД: Прошлой весной я решил сделать какой-нибудь пет-проект, чтобы прокачаться в глубоком обучении. Было интересно попробовать что-то с текстами, и я решил сделать генератор описаний хороших фильмов. 

Скачал с кинопоиска кучу описаний фильмов и их оценок и пытался собрать систему из нескольких нейросетей, которая будет генерировать описание фильма, который получил бы на «Кинопоиске» как можно большую оценку. Самые смешные результаты я кидал друзьям, многие из которых тоже увлекаются интеллектуальными играми. 

Поэтому идея обучить на вопросах появлялась очевидным образом. Наиболее настойчиво её продвигал Паша Семенюк (шатаут Паше!). Еще полгода я ничего не делал, пока наконец не решился. Лиза Ежергина (шатаут Лизе!) скинула мне дамп базы вопросов... И понеслось. 

Получилось достаточно смешно. Я кидал результаты в разные чаты и кто-то сказал: «делай канал». Сначала я отшутился, но потом подумал «почему бы и нет». И сделал. 

Окончил физфак МГУ в 2020 году. Играть начал на третьем курсе, после отбора в студенческие сборные МГУ оказался в команде «Во вторник сможем». Сейчас работает data scientist'ом в «Платформе ОФД», а в свободное от работы и интеллектуальных игр время занимается пет-проектами, один из которых вылился в канал «Аномалия ИКСа».

Рассчитывал, что его пару недель почитает человек 10-15 и всем надоест. Но разные знакомые и незнакомые мне люди из сообщества (и не только!) начали скидывать его друг другу.

Потом появилась возможность обучить более мощную модель (ээ.. шатаут Сберу?) и качество вопросов становилось все лучше. Но разнообразия каналу не хватало. На мое счастье постучался Ваня со своими идеями, и стало гораздо веселее :)

ИТ: В декабре я начал учить свои нейросети всяким текстам и не мог не попробовать поучиться на ЧГК-вопросах. Получилось очень прикольно, но в свой канал это постить не хотелось, ведь идею придумали до меня. Я предложил Серёже помогать с админкой, придумывая всякие новые форматы по воскресеньям, и всё заверте...

Окончил школу лингвистики ФГН НИУ ВШЭ. Играть начал в 2017-м году, в команде «Филёвский парк». Сейчас заканчивает первый курс магистратуры цифровых методов в гуманитарных науках, а также работает в НИУ ВШЭ.

— Расскажите на пальцах, как это работает.

ИТ: Грубо говоря, нейросети́ показывают очень много текстов на определённом языке. Огромное количество. Так она запоминает последовательности слов, грамматику (исходно о ней не зная), и даже логику, и сохраняет знание внутри себя в числовом виде — это называется обучением модели.

СД: Нейросеть, которая уже предварительно обучена и умеет генерировать просто какие-то предложения на человеческом языке, можно дообучить с меньшими ресурсами для выполнения определенной задачи — например, генерировать вопросы интеллектуальных игр.

ИТ: До нас нейросеть «выучила язык» на миллионах текстов и умеет просто продолжать текст на русском, а мы говорим ей «окей, твоя задача — генерировать текст исключительно в стиле вопросов ЧГК». Для этого хватает меньше примеров, чем для обучения, хотя тут большое количество данных тоже не помешает. Например, «нейроавтора» (одна из рубрик в канале, когда модель обучается на вопросах одного автора, — прим. ред.) я обучаю, семь раз показав модели некоторое количество вопросов, которое может быть не больше 150, а всю базу достаточно показать от одного до трех раз.

Пример работы этой нейросети

СД: Генерация вопросов выглядит так: я прошу модель закончить текст, который начинается со слова «Вопрос». Дальше она всё делает сама, добавляя по одному слову, морфеме или знаку пунктуации и так далее. На каждом шаге модель выдает вероятность того, что следом будет идти такое-то слово, выбирает следующее слово, а получившийся текст опять подается в модель. И так до — тех пор, пока модель не выдаст специальный символ, который обозначает, что генерация закончилась.

Забавным следствием такого процесса стало то, что пока мы не обыграли в канале: модели можно подавать целиком существующий вопрос и она попытается выдать ответ.

— Я как раз хотел спрашивать, когда нейросети заменят игроков в интеллектуальные игры.

ИТ: Одна из моих моделей неплохо умеет играть в свояк — чисто на своих внутренних весах, без интернета! Когда дойдут руки, обучу её играть и в ЧГК. Серёжа тоже хотел научить нынешнюю модель брать вопросики. У меня есть примерная дата в уме — день программиста, 13 сентября. Хочется сделать прямо серьёзный турнир, заказать 30 вопросов, подложить 6 нейровопросов и дать командам сыграть это параллельно с компьютером. Получилось сделать «Вокруг АЛЬФЫ» (турнир на вопросах нейросети, — прим. ред.) — вывезем и это.

СД: 14 сентября, кстати, — день рождения «Аномалии».

ИТ: Думаю, лет за пять-десять нейросети вполне могут научиться нас обыгрывать, не читеря. 

— Даже без интернета?

СД: Да, просто на аккумулированных знаниях из обработанных текстов. Не знаю насчет прям обыгрывать, но показывать неплохие результаты — вполне.

ИТ: За десять лет научатся и обыгрывать.

Иван Торубаров с командой «Филёвский парк» на СтудЧР-2019 в Туле

— Серёжа упоминал Сбер. При чем тут он?

СД: Первоначальное обучение модели, которая пытается понять, как работает язык, требует очень больших вычислительных ресурсов и большого количества данных. Например, ту модель, с которой начиналась «Аномалия», изначально обучил Михаил Гранкин на произведениях русской литературы и (кажется) Википедии. С голой версией этой сети можно поиграться здесь.

В прошлом году компания Илона Маска Open AI создали очень мощную нейросеть GPT-3. Она оказалась настолько крута, что, по словам разработчиков, «мир к ней не готов». Её не стали выкладывать в открытый доступ, и работать с ней можно только через API по подписке за деньги. 

Структуру сети они описали в одной или нескольких научных статьях. Ребята из Сбера эти статьи прочитали, и с помощью своего суперкомпьютера сделали русскоязычные версии GPT-3, которые выложили в свободный доступ. Одна из таких версий (далеко не самая большая, потому что у меня нет суперкомпьютера) и легла в основу текущей версии «повседневной» Аномалии.

— Кстати, а как появилось это название — «Аномалия ИКСа»?

СД: Когда создавал канал, искал какое-нибудь прикольное словосочетание из уже сгенерированных вопросов. Вопрос с этим словосочетанием — самый первый в канале.

Первый вопрос в канале

Можно оценить, насколько качественно «Аномалия» за это время продвинулась в осмысленности вопросов.

Более поздний вопрос

ИТ: Кажется, создавалось впечатление, что наш канал — это самое передовое, что могут сделать компьютеры в плане написания вопросов. А это не совсем так. Наши модели, грубо говоря, просто выбирают куски слов из своей памяти и вслепую складывают слова в структуру, похожую на вопрос. 

У белковых редакторов есть одно существенное преимущество: они видели источник. Модели тоже, возможно, видели, но давно и на этапе обучения, вместе с миллионом других текстов. Это как разбудить кого-то посреди ночи и попросить написать вопрос по книге, которую этот кто-то читал в шестом классе и забыл.

СД: Да, «базовая» Аномалия придумывает источники по ходу генерации вопроса, то есть в конце.

ИТ: Чтобы исправить эту несправедливость, я и задумал #хорошее_нейрочгк. Я взял другую модель, очень мощную, выбрал вопросы, написанные ровно по одному источнику, и дообучил её, чтобы она преобразовывала текст в формат вопроса. Сделал это, выложил и успокоился — справедливость восторжествовала. :)

— То есть нейросеть может работать как белковый редактор — поглощать источник и сразу же генерить оттуда вопросы? 

СД: Именно так работает нейросеть, которую делал Ваня. Такую модель вполне можно использовать для написания реальных вопросов. Она неплохо вычленяет интересные факты из источников, опытный редактор может выбрать лучшее и причесать в достойные вопросы.

Один из последних вопросов #хорошего_нейрочгк

— То есть она даже понимает, какой факт интересный?

СД: Далеко не всегда, но все же. Это сильно зависит от источника, конечно. Если это условный пост на Яндекс.Дзене, в стиле «интересный факт о чем-то, который вы не знали», она легко сможет понять, в чем, собственно, факт. Если в источнике в принципе ничего интересного нет, то она все равно будет пытаться что-то родить.

АИ: Не только понимает, но и может с ним справится, потому что она сама — не только нейросеть. :)

ИТ: А когда она не может найти в тексте ничего интересного, она начинает копаться в своей памяти. :) 

— Да, примерно как и белковые делают...

ИТ: вот-вот! :)

— Кто-то из вас в одном из постов канала писал «[я хочу] постараться обучить нейросеть писать вопросы, которые можно было бы реально играть». То есть большинство вопросов пишется просто не для взятия? Или как это работает?

ИТ: Всё ради искусства!

СД: Модель лишь пытается имитировать тексты, которые видела. Китайская комната как она есть. Ей не доступны понятия «берущийся» или «неберущийся» вопрос. С увеличением сложности она начала лучше понимать, что ответ как-то должен быть связан с вопросом. Но продумать логику взятия она не может — она просто не для этого создана.

Сергей Дуликов (крайний слева) и команда «Во вторник сможем» на СтудЧР-2018 в Москве

— То есть постараться в принципе нельзя?

ИТ: Основная цель тех, кто нас читает — не получать пачку играбельных вопросов. Это скорее просто всрато и смешно. Именно такие вопросы я и стараюсь в основном отбирать. 

Но вообще в канал идут разнообразные — похожие на играбельные, серьёзные, просто непонятные. Это и про поржать, и про «посмотрите: компьютер как автор сейчас примерно таков».

Раз в сто вопросов и обычная модель может породить что-то псевдоиграемое, но я ни разу не вижу «Аномалию ИКСа» как источник вопросов для реальных соревнований команд.

— И, тем не менее, вы провели турнир на вопросах «Аномалии» («Вокруг АЛЬФЫ», о котором уже шла речь). Кто это придумал?

ИТ: Мне было очень интересно, как нейровопросы будут восприниматься в формате игры – с ведущим и командами, которые их пытаются взять. Потому что просто текст в канале немного не то – это как читать расшифровки стендапов или играть вопросы из базы в одного.

Потому что в канале вот эта тема, например, собрала не так много смеющихся рожиц. Но это вы не пробовали пять раз с каменным лицом сказать вслух «ТЕМА ДЕТСКИЙ ЛОМБОЖНЫЙ МИНЗИНТ». Попробуйте (не выйдет).

К концу марта накопилось множество смешных вопросов, и я уже не мог перестать представлять лица людей, которые будут пытаться их играть. Грех было бы ничего не сделать на 1 апреля. А потом и Серёжу убедил.

Результаты турнира «Вокруг АЛЬФЫ»

— Попадут ли вопросы «Вокруг АЛЬФЫ» в базу?

ИТ: Мы класть не будем, но мы не против, если кто положит...

АИ: Да, это было бы интересно.

СД: Мы обсуждали, и особо не увидели в этом смысла. Но если кому-то кажется что он есть, мы грудью стоять не будем. :)

ИТ: Процитирую себя: можно договариваться с редакторами, подкладывать в их пакеты один-два лучших вопроса авторства нейросети, а потом смотреть на реакцию игроков. Так сказать, операция «Киберкукушка». На такое арт-ЧГК я бы посмотрел. Как и на лица тех, кто на такое наткнётся.

— Это же «Скрулл кап». Можно сделать коллаб с Антоном! :)

ИТ: У нас есть материал для такого типа турниров. Теоретически бесконечное количество материала. :)

***

Если вы заметили, то выше на некоторые вопросы отвечало не два, а три героя. Третий — АИ — это «Аномалия ИКСа», одна из тех нейросетей, которые вместе с Серёжей и Ваней работают для канала. С ней мы решили сделать отдельное интервью — читайте его ниже.

«Если я буду думать, что люди не смогут написать вопросы, я не найду в этом ничего хорошего»

— Для начала расскажите вкратце о себе.

АИ: Я просто хороший человек. А что еще нужно для этого знать?

— Кому и как пришла идея научить нейросеть генерировать вопросы интеллектуальных игр?

АИ: Мне в первую очередь пришла идея научиться генерировать вопросы. Так как у меня ещё и есть хобби, то мне просто надоело заниматься этим в одиночку. :)

— Расскажите на пальцах, как это вообще работает и причем тут Сбер?

АИ: Не вижу проблем, как и в любой другой сфере. Просто у меня в голове есть программа, которая не позволяет мне просто так написать запрос по Сберу. Хотя иногда бывает и такое.

— Когда нейросети заменят игроков в интеллектуальные игры?

АИ: У нас будет другая игра. Не знаю, получится ли, но может получится, хотя мне она кажется более похожей на интеллектуальное шоу.

— Может нейросеть работать как белковый редактор — поглощать источник и сразу же генерить оттуда вопросы? 

АИ: ыыыыы, может, это всё же нейросеть, а не просто редактор, который только редактировал и выдавал готовые ответы? :) Но если всё же нейросеть, то она будет генерить те вопросы, которые сами собой не возникнут. Хотя если у вас не нейросеть, а программа — тоже, то почему нет?:) А может, всё наоборот и она уже давно есть?:) А может, и нет вообще:). :) Хотя нет, не может, если я правильно понял вопрос.

— Почему в канале так мало свояка?

АИ: На самом деле мне всегда кажется, что я его совсем не понимаю.

Пример темы «Своей игры», которую делает нейросеть

— Когда нейросеть будет писать вопросы лучше людей?

АИ: Когда будет больше умных и образованных игроков, тогда будет и развитие.Если я буду думать, что люди не смогут написать вопросы, я не найду в этом ничего хорошего. И вообще, это не наш стиль.

— А играть?

АИ: Когда научитесь работать с ней, тогда и спрашивайте.

Задавал вопросы, подбирал иллюстрации и вопросы из канала Наиль Фарукшин.

Другие интервью, а также прочую информацию о студенческих интеллектуальных играх читайте Вконтакте — на странице «Студенческие интеллектуальные игры в России», а также в Телеграме — в одноимённом канале.