<?xml version="1.0" encoding="utf-8" ?><rss version="2.0" xmlns:tt="http://teletype.in/" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:media="http://search.yahoo.com/mrss/"><channel><title>Roma Vlasov</title><generator>teletype.in</generator><description><![CDATA[Roma Vlasov]]></description><image><url>https://teletype.in/files/c6/c6b8d144-ae24-49da-855b-c64924f53dd0.png</url><title>Roma Vlasov</title><link>https://teletype.in/@spbroma</link></image><link>https://teletype.in/@spbroma?utm_source=teletype&amp;utm_medium=feed_rss&amp;utm_campaign=spbroma</link><atom:link rel="self" type="application/rss+xml" href="https://teletype.in/rss/spbroma?offset=0"></atom:link><atom:link rel="next" type="application/rss+xml" href="https://teletype.in/rss/spbroma?offset=10"></atom:link><atom:link rel="search" type="application/opensearchdescription+xml" title="Teletype" href="https://teletype.in/opensearch.xml"></atom:link><pubDate>Tue, 26 May 2026 12:55:22 GMT</pubDate><lastBuildDate>Tue, 26 May 2026 12:55:22 GMT</lastBuildDate><item><guid isPermaLink="true">https://teletype.in/@spbroma/2022-08-23--interesting</guid><link>https://teletype.in/@spbroma/2022-08-23--interesting?utm_source=teletype&amp;utm_medium=feed_rss&amp;utm_campaign=spbroma</link><comments>https://teletype.in/@spbroma/2022-08-23--interesting?utm_source=teletype&amp;utm_medium=feed_rss&amp;utm_campaign=spbroma#comments</comments><dc:creator>spbroma</dc:creator><title>Интересное время</title><pubDate>Tue, 23 Aug 2022 03:49:50 GMT</pubDate><media:content medium="image" url="https://img2.teletype.in/files/12/57/1257447f-6df7-404d-9055-e18899b846d4.png"></media:content><description><![CDATA[<img src="https://img4.teletype.in/files/70/3f/703f2188-01c3-4c2b-90da-8ca95f5df258.png"></img>На протяжении своего развития, человечество ставило себе всё более сложные и амбициозные цели — построить:]]></description><content:encoded><![CDATA[
  <p id="7Fy2">На протяжении своего развития, человечество ставило себе всё более сложные и амбициозные цели — построить:</p>
  <ul id="iWJU">
    <li id="i4YT">самую высокую пирамиду</li>
    <li id="RaxL">корабль, который пересечёт океан</li>
    <li id="RSqE">машину, которая поднимет человека в воздух</li>
    <li id="ol9r">устройство, которое будет считать за человека в миллионы раз быстрее</li>
    <li id="ghVq">алгоритм, который будет принимать решения за человека быстрее, и нередко, и точнее</li>
  </ul>
  <p id="lmUK">И каждая ступень справедливо воспринимается современниками чуть ли не как чудо. И время между такими рывками с каждым разом всё сильнее сокращается. Человечество сломя голову несется в, прости господи, технологическую сингулярность: когда рутинные задачи решаются всё быстрее и дешевле, общество перестраивается под новые реалии и так далее.</p>
  <p id="Fqjl"><em>И вот, случается очередной виток прогресса. Лучшие умы человечества взмывают в воздух, успешно преодолевая новые препятствия. Они делятся своими новыми знаниями, показывая дорогу всем остальным — но в этот момент откуда-то из оврага доносится звуки возни, ругани, пьяных криков и смачных ударов.</em></p>
  <p id="Pr91"><em>Прервавшие благоговейную тишину смотрят на полет, чешут голову дубинами и в голове возникает всего одна мысль: &quot;А с помощью этой хреновины получится ёбнуть моего соседа по-сильнее? Нет? Ну и хули вы тут дурью маетесь? Да куда только мир катится: в соседнем овраге нам вот-вот болото осушат, а эти со своими игрушками носятся. Никакого уважения к исторической справедливости. А ведь это болото исторически принадле...&quot;</em></p>
  <p id="vAln">Так вот, о чём я.</p>
  <p id="Aa6x">Человечество всю историю достигало всё новых высот (иногда откатываясь назад, но тем не менее), и вот вчера случилась, как мне кажется, очередная веха: в открытый доступ выложили нейронную сеть для генерации изображений по текстовому описанию — <a href="https://huggingface.co/spaces/stabilityai/stable-diffusion" target="_blank">Stable Diffusion</a>.</p>
  <p id="uSgv">Да, я уже слышу эти голоса и вижу закатывающиеся глаза: &quot;Опять ты со своими айтишными штучками, поовсюду уже эти нейронные сети, черт бы их побрал. Сходи лучше в парк погуляй, на природу съезди, голову проверти&quot;. Но не всё так просто. (И не так сложно, в общем)</p>
  <p id="fLzk">Человечество всегда стремилось автоматизировать и ускорить рутину: мельница, печатная машинка, швейная машинка, компьютер, домашний принтер и так далее. Благодаря новым инструментам качество нашей жизни улучшалось, потому что человек был способен освободить свои ресурсы на решение более важных задач, чем вырисовывание букв или сложение в столбик.</p>
  <p id="7MSb">С появлением нейронных сетей начался бум различных алгоритмов для разнообразнейших задач. Где-то более успешно, где-то менее, а где-то пугающе хорошо. Сначала нейронные сети научились работать с изображениями: распознавать, какая буква написана (<a href="https://www.youtube.com/watch?v=FwFduRA_L6Q" target="_blank">видео</a> 1993 года с демонстрацией первой такой сети), потом с текстом, но там было сильно сложнее.</p>
  <figure id="5LCm" class="m_column">
    <img src="https://img4.teletype.in/files/70/3f/703f2188-01c3-4c2b-90da-8ca95f5df258.png" width="839" />
  </figure>
  <p id="y5BL"><em>Пример: для обучения нейронных сетей используется приём с незначительным изменением входных данных для улучшения обощающих способностей модели. Чтобы она распознавала собачку, которая смотрит не только слева, но и справа. И если картинку можно повернуть, отразить, приблизить, сделать темнее, светлее и так далее, то что можно сделать с текстом, чтобы изменить вход, но сохранить смысл? (Если вдруг стало интересно, <a href="https://amitness.com/2020/05/data-augmentation-for-nlp/" target="_blank">вот</a> хороший обзор того, что удалось придумать)</em></p>
  <p id="U39X"><em>Надеюсь, хотя бы на таком простом примере удалось показать, что работать с текстом несколько сложнее, чем с изображениями. И это я ещё молчу о языковых особенностях, всяких &quot;казнить нельзя помиловать&quot;, то что &quot;часы могут идти, когда лежат, и стоять, когда висят&quot; и прочие кошмары.</em></p>
  <p id="qcR2">Относительно давно люди всё-таки научились обучать модели на парах картинка-текст, чтобы нейронная сеть описывала <strong>словами</strong> то, что <strong>изображено на картинке</strong>. Когда я прочитал впервые об этой новости, ничего не понимал тогда ещё в этом и подумал: &quot;Фантастика, будущее уже наступило&quot;.</p>
  <figure id="joay" class="m_column">
    <img src="https://miro.medium.com/max/1400/1*6BFOIdSHlk24Z3DFEakvnQ.png" width="1400" />
  </figure>
  <p id="Yc4U">В 2019 году вышла чисто модель языковая GPT-2, которая навела шуму. А в 2020 вышла GPT-3, которая взяла новую высоту. Они могли связано отвечать на вопросы, продолжать заданный текст, сочинять стихи и так далее. (С русской версией можно поиграться <a href="https://huggingface.co/sberbank-ai/rugpt3large_based_on_gpt2" target="_blank">здесь</a>, но она какая-то глупенькая, лучше позапускать <a href="https://6b.eleuther.ai/" target="_blank">тут</a> английскую версию). Да, зачастую надо перебирать несколько вариантов, чтобы получить хороший ответ, но:</p>
  <ul id="6nbW">
    <li id="41ze">это бесплатные версии, которые могут быть также урезанными и соптимизированными</li>
    <li id="7deh">как и с любым инструментом, надо набить руку и научиться обращаться</li>
    <li id="MVqA">вспомните про сложность работы с языковыми моделями вообще</li>
  </ul>
  <section style="background-color:hsl(hsl(0,   0%,  var(--autocolor-background-lightness, 95%)), 85%, 85%);">
    <figure id="uG2y" class="m_column">
      <img src="https://img3.teletype.in/files/a2/35/a2356e6f-5d7e-40e3-bf7b-80f5985ea41b.png" width="1161" />
    </figure>
  </section>
  <p id="e4rz">Параллельно с этим, естественно, продолжали развиваться модели, работающие с изображениями, они учились генерировать фантастические вещи:</p>
  <ul id="Q7cA">
    <li id="cE2x">неуклюжие ещё <a href="https://www.nytimes.com/2018/10/25/arts/design/ai-art-sold-christies.html" target="_blank">картины</a>, которые продавались за сотни тысяч долларов (октябрь 2018)</li>
    <li id="yTfN"><a href="http://thispersondoesnotexist.com/" target="_blank">людей</a>, которых практически не отличить от реальных (декабрь 2018)</li>
    <li id="yzlc">фотореалистичные <a href="https://youtu.be/p9MAvRpT6Cg?t=30" target="_blank">пейзажи</a>, которые можно рисовать набросками (март 2019)</li>
    <li id="XGEW">deep-fake и <a href="https://youtu.be/-ZRUZzZPGto?t=133" target="_blank">замена лиц</a></li>
    <li id="UbCS">и много чего ещё</li>
  </ul>
  <p id="62xN">Но с генеративной точки зрения изображения и текст всё ещё были далеки друга, пока в начале 2021 года OpenAI не выпустила DALL-E, а весной 2022 DALL-E 2. Они придумали и обучили модель так, чтобы она по тексту генерировала изображение. В зависимости от запроса это могло быть стилизацией под какого-нибудь художника или технику, фотореалистичным изображением того, что никогда не существовало (ну или по крайне мере, не было в обучающей выборке, символом DALL-E стало <a href="https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/" target="_blank">кресло-авокадо</a>) - <a href="https://youtu.be/SVcsDDABEkM?t=299" target="_blank">чем угодно</a>, что выучилась связывать с текстом нейронная сеть.</p>
  <figure id="4lpM" class="m_column">
    <img src="https://img4.teletype.in/files/3a/35/3a354406-80e0-4d30-85e7-2d66ece05380.png" width="910" />
  </figure>
  <p id="wiNa">Задача, которая ещё несколько лет назад казалась неподъемной, вдруг оказалась решенной. Создатели DALL-E описали архитектуру и используемый подход, но для воспроизведения этого мало: для обучения своей модели нужны колоссальные вычислительные мощности. И, пока создатели давали ограниченный доступ к генерациям только единичным блогерам и журналистам, энтузиасты пытались как-то воспроизвести результаты доступными средствами, развивая и улучшая идеи DALL-E. Результатом стали:</p>
  <ul id="BCI7">
    <li id="gYEe"><a href="https://www.craiyon.com/" target="_blank">Craion</a> -- очень скромная, но порой веселая далли-образная поделка</li>
    <li id="N9iX"><a href="https://t.me/NeuralShit/3505" target="_blank">DiscoDiffusion</a>, который по тексту умеет генерировать видео. Выглядит интересно, но далеко до реализма</li>
    <li id="cQrO"><a href="https://www.youtube.com/watch?v=704brywiyfw&ab_channel=PiXimperfect" target="_blank">MidJourney</a>, которая стала заслуженным конкурентом DALL-E. Но ни подробностей архитектуры, ни кода создатели не раскрывают -- только платный доступ, зато для всех желающих.</li>
  </ul>
  <p id="zM9Y">И вот недавно появилась ещё одна модель -- Stable Diffusion. Уровень и качество генераций можно посмотреть <a href="https://t.me/text2image_art" target="_blank">здесь</a> или <a href="https://t.me/stable_diffusion" target="_blank">здесь. </a>Меня впечатляет. Особенно с учетом того, что в отличие от конкурентов, создатели SD заявляли несколько важных вещей:</p>
  <ol id="nKuv">
    <li id="tXHh">То что они выложат модель в открытый доступ со всем необходимым для запуска</li>
    <li id="W8wR">В отличие от аналогов сопоставимого качества, она не потребует для работы дорогого оборудования, подойдет любой игровой компьютер (главное требование к видеокарте)</li>
  </ol>
  <p id="BojG">И вот вчера это случилось. И это примечательно даже не тем, что &quot;теперь есть нейронная сеть, которая умеет рисовать картины&quot;. Я вижу в этом другое.</p>
  <p id="krtL">Это иллюстрация того, к чему может привести обмен знаниями и опытом, сотрудничество, упорство, вера в людей и целеустремленность. И в этой затянувшейся заметке я постарался передать то, какой огромный путь пришлось пройти нашему миру, чтобы а) добиться решения такой невозможной еще совсем недавно задачи б) безвозмездно отдать решение людям.</p>
  <p id="oQ8m">И самое поразительное, что значительную текстово-визуальную информацию о мире, которой оперирует нейронная сеть для генерации, создателям удалось вместить в какие-то жалкие 6 гигабайт. Как 2-3 фильма в хорошем качестве.</p>
  <p id="XNcL">Просто невероятно и не укладывается в голове, на что способны люди. </p>
  <figure id="Pq0a" class="m_original">
    <img src="https://img1.teletype.in/files/88/16/8816ca83-f3c7-4e22-b2d9-fc023c572f4c.png" width="530" />
  </figure>
  <p id="ZY5i">Как и то, что параллельно со всем этим, где-то взрываются бомбы, разрушаются жизни и, можно сказать, цивилизации. Люди умирают за какие-то геополитические фантомы, вбитые им головы идеи, которые не стоят ни одной отданной за них жизни. Жизни людей, которые вместо того, сидеть в окопе с автоматом, могли бы приносить пользу человечеству, получив достойное образование и расширяя границы возможного.</p>
  <p id="n1Iu">И вот этим ощущением невыносимого диссонанса между устремляющимся в будущее прогрессом и разворачивающейся средневековой бойней, которую поддерживает немалая часть населения моей цивилизованной, как будто бы, страны, я и хотел поделиться.</p>
  <p id="BsbM">А желающих потрогать будущее, приглашаю позапускать StableDiffusion <a href="https://beta.dreamstudio.ai/" target="_blank">здесь</a>. При регистрации дают 200 кредитов. В настройках можно указать количество и настройки изображений, от этого будет зависеть количество потраченных кредитов. Когда кредиты закончатся, придется как-то докупать. (Ну и пока что не прикрыли возможность зарегистрировать несколько почтовых ящиков)</p>
  <figure id="1MPV" class="m_original">
    <img src="https://img4.teletype.in/files/37/25/37252989-7ccf-48f2-9b30-d67e113574d6.png" width="1901" />
  </figure>

]]></content:encoded></item></channel></rss>