Hi, Ivan! Правила жизни с AI Ивана Ямщикова

Месяц назад, запуская «Hi, AI! медиа», мы обещали, что будем рассказывать истории о нейросетях и людях, которые их создают. Для этого мы запускаем рубрику «Правила жизни с AI». Первым героем новой рубрики стал Иван Ямщиков:

единственный русскоязычный AI-ученый, интервью с которым собрало больше миллиона просмотров на YouTube;
профессор Высшей Технической Школы Вюрцбург-Швайнфурт (Германия);
создатель и ведущий научного подкаста «Проветримся!»;
консультирует стартапы в области генеративного ИИ, помогает строить экосистему Toloka.AI;
в 2016 году вместе с Алексеем Тихоновым выпустил альбом «Нейронная оборона», состоящий из песен и стихотворений, написанных ИИ. Созданный алгоритм написал тексты в стиле Егора Летова, основателя группы «Гражданская оборона».

Ваня, давай начнем с актуального: мы всей редакцией вторую неделю генерируем песни в нейросети Suno, и на прошлой неделе добавили Suno в @GPT4Telegrambot . Интересно твое мнение как одного из пионеров в создании генеративных песен. Тебе удалось протестировать эту нейросеть?

Я потестил Suno. Это шаг в направлении того, чтобы делать музыку стало также просто, как слушать. Понятная штука, хорошо работает. Первым человеком, который предположил, что компьютеры смогут создавать музыку была Ада Лавлейс, еще в первой половине XIX века. 200 лет не прошло, а мы уже справились. Будет только лучше. Происходит коммодитизация музыки. Любой человек сможет делать любую музыку, какую хочет. Это довольно круто. С другой стороны, ценность по-настоящему уникальных вещей будет расти как всегда.

Так, подожди, я единственное из этого не понял, что такое коммодитизация?

Когда у тебя любая штука, которая раньше была доступна не многим, становится коммодити. Это, наверное, на русский язык называется …

Доступной?

Даже больше. Когда ты уже не замечаешь, что ты это получаешь. Например, вот чистая вода в Западной Европе. Мы даже не задумываемся, что вообще-то это big deal. Вода течет из крана, в Германии её можно пить и не умереть, и лицо умыть и не заразиться чем-то.

Коммодитизация — это когда что-то нужно вообще всем, и оно играет очень важную роль в нашей жизни, но при этом оно настолько оптимизировано, технологически сделано и качественно работает, что мы в среднем вообще не замечаем, что это у нас это есть. Чистая вода, свет, электричество. Электричество — это коммодити, в современном развитом мире без электричества не работает ничего. Сейчас доступ в интернет проходит стадию коммодитизации. Например, стриминги позволили сделать музыку доступной в плане прослушивания, то есть любой человек может сегодня слушать музыку, а создавать ее по-прежнему непросто.

Suno — это шаг в сторону того, чтобы делать музыку стало так же просто, как слушать. Suno позволяет сделать что-то, что конкретно ты хочешь. И эта разница кажется маленькой, но на самом деле она гигантская. Мы это видим по поколению телевизора и поколению Ютуба. Поколение Ютуба намного более проактивное.

У тебя возникло желание что-нибудь записать в Suno?

Честно говоря, я пока ещё с картинками не наигрался. Я до этого много в Midjourney сидел, а сейчас DALL-E 3 выкатилась. У меня друг сегодня закинул несколько заголовков новостных в DALL-E. И я тебе могу показать результат. Новость такая: «Ростовские казаки воюют с коноплёй и крокодилами». Картинка настолько хороша, что, мне кажется, она должна быть у тебя в телеге. Вот, смотри.

Прекрасно. Готовый принт. Можно рубрику у нас в медиа запускать.

А с музыкой я люблю работать вручную, мне нравится именно сам процесс. Я ее регулярно в стол пишу для себя. При этом уверен, что уже для моих детей будет абсолютной нормой сгенерировать себе песню для школьного проекта, посвященного космическим колонистам.

Правильно ли я понимаю, что в создании музыки началась новая эпоха?

Начинается эпоха, когда люди из потребителей превращаются в авторов. Это очень сильное отличие. То есть можно спорить, насколько ты автор музыки, которую сделала Suno, но в некотором смысле ты автор, ты проактивен, что-то сделал, чтобы она сгенерировала тебе песню. Или придумал промт — картинка появилась.

Нейросеть — здесь автор или соавтор? Кому должны принадлежать авторские права?

Мне кажется, что концепция авторского права — очень странная, локальная история XX века, о которой мы, надеюсь, скоро забудем. Понятно же, что никто не автор. Ньютон говорил: «Я стоял на плечах гигантов». Он сделал некоторую инкрементальную вещь по сравнению с людьми до него, и сделал её хорошо, качественно. Но это всё равно следствие какого-то предыдущего опыта. Опыта даже ни одного учёного, а поколений. То же самое и в музыке, и везде. Идея авторства для меня важна как ощущение, что ты автор, это дает совершенно другое понимание мира.

Что ты думаешь по поводу коллективных исков писателей и художников против ChatGPT?

Я не понимаю идею интеллектуальной собственности. Мне кажется, это бред. Это какое-то массовое помешательство. Типа, что значит интеллектуальная? Леонардо да Винчи жил без интеллектуальной собственности. Рафаэль жил без интеллектуальной. Бах жил без интеллектуальной собственности.

А что ты думаешь про NFT? (ред. — уникальный токен, сертификат цифрового объекта, обозначающий право владения)

NFT представляет собой попытку продлить эту иллюзию еще лет на сто. Единственный NFT, который я выпустил, был посвящен «Нейронной обороне». Мы создали нейросетку, которая сгенерировала стихи в стиле Егора Летова, сочинили музыку и записали вокал. Еще важно, что мы перегнали все на кассету, где был альбом «Гражданской обороны», а затем обратно оцифровали, чтобы этот лентопротяжный механизм был слышен. Мы опубликовали музыкальный альбом бесплатно в паблике, но у нас его кто-то спиратил и перевыложил в других местах. Я подумал, это очень прикольно. И мы решили сделать NFT. Мы взяли спиратели у пиратов, и вот это токенизовали. Это хорошая иллюстрация того, как я отношусь к концепции интеллектуальной собственности.

Когда ты начал работать с нейросетями?

7 лет назад, как раз, когда мы выпустили «Нейронную оборону». Понял, что не хочу заниматься финансовой математикой, о чем писал свою диссертацию, а хочу заниматься генерацией языка. И, собственно, переключился.

Круто. Слушай, это тоже очень важно, разрешить себе поменять сферу деятельности.

По поводу возможности переключиться есть великая цитата Роберта Хайнлайна, которую я своим студентам привожу: «Любой человек должен уметь менять пелёнки, планировать вторжения, резать свиней, конструировать здания, управлять кораблями, писать сонеты, вести бухгалтерию, возводить стены, вправлять кости, облегчать смерть, исполнять приказы, отдавать приказы, сотрудничать, действовать самостоятельно, решать уравнения, анализировать новые проблемы, вносить удобрения, программировать компьютеры, вкусно готовить, хорошо сражаться, достойно умирать. Специализация — удел насекомых». В контексте переключения искусственный интеллект двигает нас в сторону понимания, что на самом деле такое человеческий интеллект, что дело не в глубокой специализации, а в способности видеть перспективу и находить неожиданные аналогии между различными вещами, процессами и идеями.

А какие еще арт-проекты ты делал с нейросетями?

В 2017 году мы сгенерировали музыку, основную тему для открытия конференции Яндекса в Москве. ИИ «прослушал» 600 часов музыки Скрябина, а Петя Термен, который является правнуком Льва Термена (ред. — русский изобретатель и создатель терменвокса, одного из первых электронных музыкальных инструментов) придумал аранжировку и исполнил ее совместно с камерным оркестром. Это одна из первых генеративных композиций, которую играл оркестр. Еще наш экспонат выставлялся в Бонне в техническом музее — это были генеративные тексты Курта Кобейна.

Ты себя считаешь AI Artist?

Мне интересно то, что называется по-английски computational creativity, то есть попытка осмыслить феномен творчества с точки зрения компьютерных наук и алгоритмов, и с точки зрения теории информации в целом. Но я себя не считаю AI Artist. Нет, я AI Scientist. Моя основная работа — это наука. И почти все статьи, которые мне нравятся, написаны про генеративные языковые модели. В частности, когда мы сделали «Нейронную оборону», мы по мотивам этой нейросети написали статью про генерацию поэзии. Классно, конечно, что мы показали в России, какие могут быть нейросетки еще в 2016. И это было сильно раньше, чем начался хайп вокруг ИИ. Но для меня важнее научные статьи.

Какой твой прогноз на 10 лет, как ИИ изменит нашу жизнь?

В ближайшем десятилетии, вероятно, образование претерпит значительные изменения, поскольку текущие методы оценки усвоения знаний становятся неэффективными. Происходит геймификация обучения. Работа преподавателей будет в большей степени основываться на межличностном взаимодействии. Грубо говоря, мы вернёмся к парадигме древних греков, когда академия — это когда ты с учителем гуляешь по саду и о чём-то разговариваешь. Это движение кажется мне верным.

Сильно возрастёт продуктивность среди «белых воротничков» (ред. — работники умственного труда). Я надеюсь, что мы увидим сейчас, что именно white-collar jobs станут намного продуктивнее.

Я полагаю, что персонализация среды перейдёт из онлайна в офлайн. Это станет более ощутимым.

Сначала был текст ChatGPT, потом картинка Midjourney. Где будет следующий прорыв?

Он уже происходит — это мультимодальные модели, то есть картинка и текст вместе. Когда я впервые увидел генеративные технологии, я подумал, что это должно случиться. 7 лет назад, когда мы начинали, многие люди просто говорили, ну, вы что, дебилы? А сейчас я прям такой... I feel revenged. I feel revenged. Мне очевидно, что вокруг языка очень много всего устроено. Используя обычный язык как инструмент для создания нового, ты очень многое сможешь изменить в мире.

Для поиска информации ты тоже используешь ИИ?

Ищу я, как обычно. Я пользуюсь гуглом. Плюс иногда, если мне нужно структурировать информацию, то я пользуюсь ChatGPT. Мне кажется, тут нет ничего удивительного.

Подожди, а Google — это искусственный интеллект?

Конечно. А как же? Все современные поисковые сети и поисковики нового поколения, например You.com, построены на нейронных сетях, как алгоритмы, которые сопоставляют твой запрос с ответом. Во многом развитие поиска способствовало развитию тех технологий, которые сейчас используются в генеративных моделях, потому что данных стало много, они стали доступны, и на них можно легко обучаться. То есть, условно говоря, ChatGPT обучен на всем интернете. Была такая известная история, когда людей в России спрашивали, если исчезнут все сайты в интернете, и есть возможность оставить только один, какой бы вы оставили? Люди говорили, оставьте нам один Яндекс. И из этого было очевидно, что люди не понимают, что такое интернет, что интернет — это как раз всё, кроме Яндекса. А Яндекс — это способ найти в интернете то, что тебе нужно. Люди не разделяют эти два понятия. Возможность проиндексировать огромное количество текстовой информации, которой обладает любой поисковик, — это база, на которой строятся современные генеративные модели.

Миллионы людей по всему свету используют ИИ и не догадываются об этом. Когда ты гуглишь, ты используешь искусственный интеллект. Когда тебе следующее видео YouTube предлагает, ты используешь искусственный интеллект. Когда ты открываешь Netflix, ты используешь искусственный интеллект, потому что кино подобрано для тебя алгоритмами. Машинное обучение — это процесс, когда у тебя есть алгоритм, который улучшает заданную функцию качества через обратную связь. В случае с Netflix, функция качества — это, наверное, сколько ты лайков поставил тому, что он тебе на первом экране показал. Когда ты открываешь TikTok, функция качества — это сколько секунд ты посмотрел ролик.

Проведите очень простой эксперимент, возьмите свой Instagram и начните давать обратную связь на рекламу. Очень быстро реклама окажется визуально интереснее, чем посты ваших друзей. Попробуйте взаимодействовать с рекламой, ставьте лайки той рекламе, которая вам нравится, и минусите ту, которая вам не нравится. И через неделю может оказаться так, что реклама будет вызывать у вас больше эстетического удовольствия, чем среднестатистический пост в вашей ленте.

Спасибо за идею. А как ты используешь ИИ в работе?

В работе я регулярно использую ChatGPT для конспектирования и упрощения информации, особенно при редактировании текстов. Я прошу ChatGPT подсветить проблемные места в тексте, выявить фрагменты, которые неясно написаны. Особенно, когда пишу тексты на английском и немецком языках.

Можешь привести пример?

Например, я составил научную статью и обнаружил, что некоторые части написаны неудачно. У меня есть отдельный чат с ChatGPT, который функционирует как редактор моих научных текстов. Я сначала отправляю туда статью, объясняя, что ChatGPT — редактор для определенных научных журналов и конференций с конкретным профессиональным контекстом. Ставлю перед ChatGPT задачу стилизовать текст. Иногда я отправляю тексты в качестве примеров. В некоторых случаях я прошу, чтобы текст был написан так, как если бы его редактировал кто-то, воспитанный Рэем Брэдбери и Илоном Маском вместе. После работы ChatGPT я всегда вычитываю текст.

Для брейнсторминга часто использую. Вместе с социологами мы работали над заявкой для исследования социальных сетей с помощью NLP (ред. — обработка естественного языка). В социальных сетях существует концепция «эхо-камер», когда люди повторяют одни и те же мнения в закрытом кругу. Нам нужно было придумать название для научного гранта. Желательно, чтобы оно было красивым акронимом на английском языке. После первого раунда идей я дал обратную связь, указывая на те варианты, которые кажутся слишком сложными или не примечательными, и предложил придумать ещё десяток идей, ориентируясь на лучшие из предложенных. В результате брейнсторминга с ИИ было предложено название ECHO с расшифровкой Enhancing Communication for Harmonious Online interactions (улучшение коммуникации для гармоничных онлайн-взаимодействий). Это удачный пример акронима, который отражает суть проекта.

При прочтении больших бизнес-текстов, когда возникает потребность выделить главные идеи, основная фича, которую я использую, — саммаризация.

В научной сфере вместо генеративных моделей чаще использую рекомендательные системы. Существует ряд сервисов, которые, основываясь на анализе ранее прочитанных статей, предлагают к прочтению другие научные работы. Такой Netflix для ученых. Я пользуюсь Mendeley.com

У тебя есть любимая нейросеть?

У меня нет любимой нейросетки. Я не из тех мужчин, которые называют свою машину ласточкой.

А в жизни, как пользуешься ИИ?

В жизни я стараюсь не использовать ИИ, больше гулять на свежем воздухе, взаимодействовать с женой и собаками и не использовать то, что я делаю в работе.

Интервью для Hi, AI! медиа провел Анатолий Бузинский.