<?xml version="1.0" encoding="utf-8" ?><feed xmlns="http://www.w3.org/2005/Atom" xmlns:tt="http://teletype.in/" xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/"><title>Roma Vlasov</title><author><name>Roma Vlasov</name></author><id>https://teletype.in/atom/spbroma</id><link rel="self" type="application/atom+xml" href="https://teletype.in/atom/spbroma?offset=0"></link><link rel="alternate" type="text/html" href="https://teletype.in/@spbroma?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=spbroma"></link><link rel="next" type="application/rss+xml" href="https://teletype.in/atom/spbroma?offset=10"></link><link rel="search" type="application/opensearchdescription+xml" title="Teletype" href="https://teletype.in/opensearch.xml"></link><updated>2026-05-26T12:53:38.442Z</updated><entry><id>spbroma:2022-08-23--interesting</id><link rel="alternate" type="text/html" href="https://teletype.in/@spbroma/2022-08-23--interesting?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=spbroma"></link><title>Интересное время</title><published>2022-08-23T03:49:50.784Z</published><updated>2022-08-23T11:49:49.485Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img2.teletype.in/files/12/57/1257447f-6df7-404d-9055-e18899b846d4.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img4.teletype.in/files/70/3f/703f2188-01c3-4c2b-90da-8ca95f5df258.png&quot;&gt;На протяжении своего развития, человечество ставило себе всё более сложные и амбициозные цели — построить:</summary><content type="html">
  &lt;p id=&quot;7Fy2&quot;&gt;На протяжении своего развития, человечество ставило себе всё более сложные и амбициозные цели — построить:&lt;/p&gt;
  &lt;ul id=&quot;iWJU&quot;&gt;
    &lt;li id=&quot;i4YT&quot;&gt;самую высокую пирамиду&lt;/li&gt;
    &lt;li id=&quot;RaxL&quot;&gt;корабль, который пересечёт океан&lt;/li&gt;
    &lt;li id=&quot;RSqE&quot;&gt;машину, которая поднимет человека в воздух&lt;/li&gt;
    &lt;li id=&quot;ol9r&quot;&gt;устройство, которое будет считать за человека в миллионы раз быстрее&lt;/li&gt;
    &lt;li id=&quot;ghVq&quot;&gt;алгоритм, который будет принимать решения за человека быстрее, и нередко, и точнее&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;lmUK&quot;&gt;И каждая ступень справедливо воспринимается современниками чуть ли не как чудо. И время между такими рывками с каждым разом всё сильнее сокращается. Человечество сломя голову несется в, прости господи, технологическую сингулярность: когда рутинные задачи решаются всё быстрее и дешевле, общество перестраивается под новые реалии и так далее.&lt;/p&gt;
  &lt;p id=&quot;Fqjl&quot;&gt;&lt;em&gt;И вот, случается очередной виток прогресса. Лучшие умы человечества взмывают в воздух, успешно преодолевая новые препятствия. Они делятся своими новыми знаниями, показывая дорогу всем остальным — но в этот момент откуда-то из оврага доносится звуки возни, ругани, пьяных криков и смачных ударов.&lt;/em&gt;&lt;/p&gt;
  &lt;p id=&quot;Pr91&quot;&gt;&lt;em&gt;Прервавшие благоговейную тишину смотрят на полет, чешут голову дубинами и в голове возникает всего одна мысль: &amp;quot;А с помощью этой хреновины получится ёбнуть моего соседа по-сильнее? Нет? Ну и хули вы тут дурью маетесь? Да куда только мир катится: в соседнем овраге нам вот-вот болото осушат, а эти со своими игрушками носятся. Никакого уважения к исторической справедливости. А ведь это болото исторически принадле...&amp;quot;&lt;/em&gt;&lt;/p&gt;
  &lt;p id=&quot;vAln&quot;&gt;Так вот, о чём я.&lt;/p&gt;
  &lt;p id=&quot;Aa6x&quot;&gt;Человечество всю историю достигало всё новых высот (иногда откатываясь назад, но тем не менее), и вот вчера случилась, как мне кажется, очередная веха: в открытый доступ выложили нейронную сеть для генерации изображений по текстовому описанию — &lt;a href=&quot;https://huggingface.co/spaces/stabilityai/stable-diffusion&quot; target=&quot;_blank&quot;&gt;Stable Diffusion&lt;/a&gt;.&lt;/p&gt;
  &lt;p id=&quot;uSgv&quot;&gt;Да, я уже слышу эти голоса и вижу закатывающиеся глаза: &amp;quot;Опять ты со своими айтишными штучками, поовсюду уже эти нейронные сети, черт бы их побрал. Сходи лучше в парк погуляй, на природу съезди, голову проверти&amp;quot;. Но не всё так просто. (И не так сложно, в общем)&lt;/p&gt;
  &lt;p id=&quot;fLzk&quot;&gt;Человечество всегда стремилось автоматизировать и ускорить рутину: мельница, печатная машинка, швейная машинка, компьютер, домашний принтер и так далее. Благодаря новым инструментам качество нашей жизни улучшалось, потому что человек был способен освободить свои ресурсы на решение более важных задач, чем вырисовывание букв или сложение в столбик.&lt;/p&gt;
  &lt;p id=&quot;7MSb&quot;&gt;С появлением нейронных сетей начался бум различных алгоритмов для разнообразнейших задач. Где-то более успешно, где-то менее, а где-то пугающе хорошо. Сначала нейронные сети научились работать с изображениями: распознавать, какая буква написана (&lt;a href=&quot;https://www.youtube.com/watch?v=FwFduRA_L6Q&quot; target=&quot;_blank&quot;&gt;видео&lt;/a&gt; 1993 года с демонстрацией первой такой сети), потом с текстом, но там было сильно сложнее.&lt;/p&gt;
  &lt;figure id=&quot;5LCm&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/70/3f/703f2188-01c3-4c2b-90da-8ca95f5df258.png&quot; width=&quot;839&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;y5BL&quot;&gt;&lt;em&gt;Пример: для обучения нейронных сетей используется приём с незначительным изменением входных данных для улучшения обощающих способностей модели. Чтобы она распознавала собачку, которая смотрит не только слева, но и справа. И если картинку можно повернуть, отразить, приблизить, сделать темнее, светлее и так далее, то что можно сделать с текстом, чтобы изменить вход, но сохранить смысл? (Если вдруг стало интересно, &lt;a href=&quot;https://amitness.com/2020/05/data-augmentation-for-nlp/&quot; target=&quot;_blank&quot;&gt;вот&lt;/a&gt; хороший обзор того, что удалось придумать)&lt;/em&gt;&lt;/p&gt;
  &lt;p id=&quot;U39X&quot;&gt;&lt;em&gt;Надеюсь, хотя бы на таком простом примере удалось показать, что работать с текстом несколько сложнее, чем с изображениями. И это я ещё молчу о языковых особенностях, всяких &amp;quot;казнить нельзя помиловать&amp;quot;, то что &amp;quot;часы могут идти, когда лежат, и стоять, когда висят&amp;quot; и прочие кошмары.&lt;/em&gt;&lt;/p&gt;
  &lt;p id=&quot;qcR2&quot;&gt;Относительно давно люди всё-таки научились обучать модели на парах картинка-текст, чтобы нейронная сеть описывала &lt;strong&gt;словами&lt;/strong&gt; то, что &lt;strong&gt;изображено на картинке&lt;/strong&gt;. Когда я прочитал впервые об этой новости, ничего не понимал тогда ещё в этом и подумал: &amp;quot;Фантастика, будущее уже наступило&amp;quot;.&lt;/p&gt;
  &lt;figure id=&quot;joay&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://miro.medium.com/max/1400/1*6BFOIdSHlk24Z3DFEakvnQ.png&quot; width=&quot;1400&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Yc4U&quot;&gt;В 2019 году вышла чисто модель языковая GPT-2, которая навела шуму. А в 2020 вышла GPT-3, которая взяла новую высоту. Они могли связано отвечать на вопросы, продолжать заданный текст, сочинять стихи и так далее. (С русской версией можно поиграться &lt;a href=&quot;https://huggingface.co/sberbank-ai/rugpt3large_based_on_gpt2&quot; target=&quot;_blank&quot;&gt;здесь&lt;/a&gt;, но она какая-то глупенькая, лучше позапускать &lt;a href=&quot;https://6b.eleuther.ai/&quot; target=&quot;_blank&quot;&gt;тут&lt;/a&gt; английскую версию). Да, зачастую надо перебирать несколько вариантов, чтобы получить хороший ответ, но:&lt;/p&gt;
  &lt;ul id=&quot;6nbW&quot;&gt;
    &lt;li id=&quot;41ze&quot;&gt;это бесплатные версии, которые могут быть также урезанными и соптимизированными&lt;/li&gt;
    &lt;li id=&quot;7deh&quot;&gt;как и с любым инструментом, надо набить руку и научиться обращаться&lt;/li&gt;
    &lt;li id=&quot;MVqA&quot;&gt;вспомните про сложность работы с языковыми моделями вообще&lt;/li&gt;
  &lt;/ul&gt;
  &lt;section style=&quot;background-color:hsl(hsl(0,   0%,  var(--autocolor-background-lightness, 95%)), 85%, 85%);&quot;&gt;
    &lt;figure id=&quot;uG2y&quot; class=&quot;m_column&quot;&gt;
      &lt;img src=&quot;https://img3.teletype.in/files/a2/35/a2356e6f-5d7e-40e3-bf7b-80f5985ea41b.png&quot; width=&quot;1161&quot; /&gt;
    &lt;/figure&gt;
  &lt;/section&gt;
  &lt;p id=&quot;e4rz&quot;&gt;Параллельно с этим, естественно, продолжали развиваться модели, работающие с изображениями, они учились генерировать фантастические вещи:&lt;/p&gt;
  &lt;ul id=&quot;Q7cA&quot;&gt;
    &lt;li id=&quot;cE2x&quot;&gt;неуклюжие ещё &lt;a href=&quot;https://www.nytimes.com/2018/10/25/arts/design/ai-art-sold-christies.html&quot; target=&quot;_blank&quot;&gt;картины&lt;/a&gt;, которые продавались за сотни тысяч долларов (октябрь 2018)&lt;/li&gt;
    &lt;li id=&quot;yTfN&quot;&gt;&lt;a href=&quot;http://thispersondoesnotexist.com/&quot; target=&quot;_blank&quot;&gt;людей&lt;/a&gt;, которых практически не отличить от реальных (декабрь 2018)&lt;/li&gt;
    &lt;li id=&quot;yzlc&quot;&gt;фотореалистичные &lt;a href=&quot;https://youtu.be/p9MAvRpT6Cg?t=30&quot; target=&quot;_blank&quot;&gt;пейзажи&lt;/a&gt;, которые можно рисовать набросками (март 2019)&lt;/li&gt;
    &lt;li id=&quot;XGEW&quot;&gt;deep-fake и &lt;a href=&quot;https://youtu.be/-ZRUZzZPGto?t=133&quot; target=&quot;_blank&quot;&gt;замена лиц&lt;/a&gt;&lt;/li&gt;
    &lt;li id=&quot;UbCS&quot;&gt;и много чего ещё&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;62xN&quot;&gt;Но с генеративной точки зрения изображения и текст всё ещё были далеки друга, пока в начале 2021 года OpenAI не выпустила DALL-E, а весной 2022 DALL-E 2. Они придумали и обучили модель так, чтобы она по тексту генерировала изображение. В зависимости от запроса это могло быть стилизацией под какого-нибудь художника или технику, фотореалистичным изображением того, что никогда не существовало (ну или по крайне мере, не было в обучающей выборке, символом DALL-E стало &lt;a href=&quot;https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/&quot; target=&quot;_blank&quot;&gt;кресло-авокадо&lt;/a&gt;) - &lt;a href=&quot;https://youtu.be/SVcsDDABEkM?t=299&quot; target=&quot;_blank&quot;&gt;чем угодно&lt;/a&gt;, что выучилась связывать с текстом нейронная сеть.&lt;/p&gt;
  &lt;figure id=&quot;4lpM&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/3a/35/3a354406-80e0-4d30-85e7-2d66ece05380.png&quot; width=&quot;910&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;wiNa&quot;&gt;Задача, которая ещё несколько лет назад казалась неподъемной, вдруг оказалась решенной. Создатели DALL-E описали архитектуру и используемый подход, но для воспроизведения этого мало: для обучения своей модели нужны колоссальные вычислительные мощности. И, пока создатели давали ограниченный доступ к генерациям только единичным блогерам и журналистам, энтузиасты пытались как-то воспроизвести результаты доступными средствами, развивая и улучшая идеи DALL-E. Результатом стали:&lt;/p&gt;
  &lt;ul id=&quot;BCI7&quot;&gt;
    &lt;li id=&quot;gYEe&quot;&gt;&lt;a href=&quot;https://www.craiyon.com/&quot; target=&quot;_blank&quot;&gt;Craion&lt;/a&gt; -- очень скромная, но порой веселая далли-образная поделка&lt;/li&gt;
    &lt;li id=&quot;N9iX&quot;&gt;&lt;a href=&quot;https://t.me/NeuralShit/3505&quot; target=&quot;_blank&quot;&gt;DiscoDiffusion&lt;/a&gt;, который по тексту умеет генерировать видео. Выглядит интересно, но далеко до реализма&lt;/li&gt;
    &lt;li id=&quot;cQrO&quot;&gt;&lt;a href=&quot;https://www.youtube.com/watch?v=704brywiyfw&amp;ab_channel=PiXimperfect&quot; target=&quot;_blank&quot;&gt;MidJourney&lt;/a&gt;, которая стала заслуженным конкурентом DALL-E. Но ни подробностей архитектуры, ни кода создатели не раскрывают -- только платный доступ, зато для всех желающих.&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;zM9Y&quot;&gt;И вот недавно появилась ещё одна модель -- Stable Diffusion. Уровень и качество генераций можно посмотреть &lt;a href=&quot;https://t.me/text2image_art&quot; target=&quot;_blank&quot;&gt;здесь&lt;/a&gt; или &lt;a href=&quot;https://t.me/stable_diffusion&quot; target=&quot;_blank&quot;&gt;здесь. &lt;/a&gt;Меня впечатляет. Особенно с учетом того, что в отличие от конкурентов, создатели SD заявляли несколько важных вещей:&lt;/p&gt;
  &lt;ol id=&quot;nKuv&quot;&gt;
    &lt;li id=&quot;tXHh&quot;&gt;То что они выложат модель в открытый доступ со всем необходимым для запуска&lt;/li&gt;
    &lt;li id=&quot;W8wR&quot;&gt;В отличие от аналогов сопоставимого качества, она не потребует для работы дорогого оборудования, подойдет любой игровой компьютер (главное требование к видеокарте)&lt;/li&gt;
  &lt;/ol&gt;
  &lt;p id=&quot;BojG&quot;&gt;И вот вчера это случилось. И это примечательно даже не тем, что &amp;quot;теперь есть нейронная сеть, которая умеет рисовать картины&amp;quot;. Я вижу в этом другое.&lt;/p&gt;
  &lt;p id=&quot;krtL&quot;&gt;Это иллюстрация того, к чему может привести обмен знаниями и опытом, сотрудничество, упорство, вера в людей и целеустремленность. И в этой затянувшейся заметке я постарался передать то, какой огромный путь пришлось пройти нашему миру, чтобы а) добиться решения такой невозможной еще совсем недавно задачи б) безвозмездно отдать решение людям.&lt;/p&gt;
  &lt;p id=&quot;oQ8m&quot;&gt;И самое поразительное, что значительную текстово-визуальную информацию о мире, которой оперирует нейронная сеть для генерации, создателям удалось вместить в какие-то жалкие 6 гигабайт. Как 2-3 фильма в хорошем качестве.&lt;/p&gt;
  &lt;p id=&quot;XNcL&quot;&gt;Просто невероятно и не укладывается в голове, на что способны люди. &lt;/p&gt;
  &lt;figure id=&quot;Pq0a&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/88/16/8816ca83-f3c7-4e22-b2d9-fc023c572f4c.png&quot; width=&quot;530&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;ZY5i&quot;&gt;Как и то, что параллельно со всем этим, где-то взрываются бомбы, разрушаются жизни и, можно сказать, цивилизации. Люди умирают за какие-то геополитические фантомы, вбитые им головы идеи, которые не стоят ни одной отданной за них жизни. Жизни людей, которые вместо того, сидеть в окопе с автоматом, могли бы приносить пользу человечеству, получив достойное образование и расширяя границы возможного.&lt;/p&gt;
  &lt;p id=&quot;n1Iu&quot;&gt;И вот этим ощущением невыносимого диссонанса между устремляющимся в будущее прогрессом и разворачивающейся средневековой бойней, которую поддерживает немалая часть населения моей цивилизованной, как будто бы, страны, я и хотел поделиться.&lt;/p&gt;
  &lt;p id=&quot;BsbM&quot;&gt;А желающих потрогать будущее, приглашаю позапускать StableDiffusion &lt;a href=&quot;https://beta.dreamstudio.ai/&quot; target=&quot;_blank&quot;&gt;здесь&lt;/a&gt;. При регистрации дают 200 кредитов. В настройках можно указать количество и настройки изображений, от этого будет зависеть количество потраченных кредитов. Когда кредиты закончатся, придется как-то докупать. (Ну и пока что не прикрыли возможность зарегистрировать несколько почтовых ящиков)&lt;/p&gt;
  &lt;figure id=&quot;1MPV&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/37/25/37252989-7ccf-48f2-9b30-d67e113574d6.png&quot; width=&quot;1901&quot; /&gt;
  &lt;/figure&gt;

</content></entry></feed>