ai
June 8

Нейросети для самых маленьких (часть 1)

Оглавление

  1. Вступление
  2. История развития нейросетей
  3. Как работают чат-боты
  4. Ограничения в ИИ
  5. Часть 2

Вступление

Нейросети – это электронные «мозги», которые учатся на большой базе примеров и уже работают вокруг нас.

Они помогают разработчикам писать программы, интернет-магазинам предлагать товары с учетом дополнительных алгоритмов, а графическим ассистентам – обрабатывать личные фотографии.

В этой статье простыми словами я объясняю, что такое нейросети, откуда они взялись и как используются сегодня – от разговорных чат-ботов до умных домов.

Нейронные сети (или нейросети) – это модели искусственного интеллекта, по архитектуре вдохновлённые работой человеческого мозга.

Представьте сотни и тысячи «электронных нейронов», связанных между собой: они обмениваются сигналами и постепенно учатся решать задачи, как ребёнок, которому показывают много примеров.

Ещё десять лет назад о нейросетях знали в основном учёные. Но сейчас каждый из нас ежедневно сталкивается с плодами их работы. Когда смартфон обрабатывает твои фото или фильтр облачной почты блокирует спам – спасиб нейросетям!

История развития нейросетей

Современный бум нейросетей начался в 2010-х, когда крупные компании открыли для всех пользователей свои инструменты (библиотеки TensorFlow, PyTorch) т.е. кинули проект в опен сорс на гитхаб для использования любому желающему. Это упростило создание нейросетей для различных задач – от распознавания изображений до переводов. Со временем нейросети «выросли» в уме: чат-боты эволюционировали от простых сценариев до интеллектуальных систем вроде GPT. Появились и новые направления:

  • генерация или распознавание изображений, аудио
  • кодеры, автодополняющие исходный код программиста
  • генерация видео на основе промта или пары фото
  • текстовые ассистенты с функцией мышления(рассуждения)
  • текстовые ассистенты с функцией дополнительного контекста в виде подключения к стороннему API (поиск, память, управление программ)

Первые практические успехи нейросетей были связаны с распознаванием образов и классификацией. Например, алгоритмы научились смотреть на фотографию и определять, что на ней – кот или собака, а по тысячам похожих снимков выучили отличать даже экзотических животных.

В 2012 году одна из таких моделей впервые победила традиционные методы в конкурсе ImageNet по распознаванию объектов, что стало знаменательной вехой. Крупные компании внедряли нейросети в своих сервисах: например, приложение Google Photos научилось искать по снимкам определённые объекты (введите в поиск «паспорт», и программа найдёт фотографию твоего паспорта) – для этого сеть проанализировала тысячи примеров и научилась узнавать даже незнакомые ей раньше документы и форматы из разных стран. Подобные технологии стали применять повсюду: от фильтрации спама в почте до диагностики болезней по медицинским снимкам. Нейросети из научных лабораторий перебрались в промышленность – их использовали на заводах для контроля качества, в банках для обнаружения подозрительных транзакций, в интернете для персональных рекомендаций товаров и фильмов.

Параллельно с этим развивалось направление чат-ботов – программ, которые общаются с человеком на естественном языке. Ранние чат-боты были довольно примитивными: они работали по жёстко заданным сценариям. Классический пример – бот ELIZA, созданный ещё в 1960-х, который отвечал на вопросы расплывчатыми фразами, перебрасывая разговор обратно к собеседнику. Затем появились помощники в телефонах и на сайтах, которые могли по ключевым словам дать заготовленный ответ – удобнее, чем ничего, но о настоящем понимании речи речи не шло :)

GPT - Generative Pre-trained Transformer

Революция произошла с появлением больших языковых моделей (LLM, Large Language Models). В 2017 году разработчики предложили архитектуру Transformer, благодаря которой ИИ стал гораздо лучше понимать контекст и генерировать связанный текст. На базе этой идеи OpenAI создала семейство моделей GPT. Сначала был GPT-1 (2018), затем GPT-2 (2019), который уже умел порождать связные абзацы текста. В 2020 году вышел GPT-3 – модель с 175 миллиардами параметров, умеющая сочинять тексты практически на любую тему. Это был скачок в возможностях, но широкой публике GPT-3 сначала была недоступна, ею пользовались через платное API.

Настоящим же знаменателем стал выпуск в конце 2022 года чат-бота ChatGPT на основе улучшенной версии GPT-3.5. Всего за два месяца аудитория ChatGPT достигла 100 миллионов человек, что сделало его самым быстрорастущим потребительским приложением в истории. Не только для "поболтать" или сочинить шутку, а для оперативного получения информации простым человеческим языком, вместо самостоятельного поиска через поисковые машины с последующим открытием страниц в браузере.

ИИ разговорный ассистент отличается от простого сайта тем, что не рендерит огромный баннер на пол экрана браузера.

Диалоговый искусственный интеллект сегодня стал массовым:

  • Люди получают искомую информацию несколькими абзацами
  • ИИ научился оформлению текста в разметке Markdown
  • ИИ умеет генерировать и выполнять код на языках программирования при помощи встроенных функций (code executor)
  • ИИ способен взаимодействовать и с иными функциями, разработанными сторонними разработчиками. (Call Tools и Call Functions). Своего рода, специальный универсальный язык взаимодействия.

Чат-боты из болтливых игрушек превратились в полезный инструмент для миллионов пользователей.

Модели семейства GPT продолжают развиваться в направлениях:

  • Модуль Vision для распознавания сущностей на изображениях.
  • Модуль Think для рассуждения. (как внутренний голос в голове у человека)
  • Модуль экспертов. Это симбиоз нескольких экспертов в ИИ, способных принять общее решение на вопрос человека.

Как работают чат-боты

Чат-боты, основанные на нейросетях, работают на базе языковых моделей — систем, обученных предсказывать следующий фрагмент текста по заданному контексту. Такие модели обучаются на огромных массивах текстов: от книг до целых интернет архивов.

Во время обучения модель многократно "просматривает" тексты и подбирает такие параметры (числа), при которых её ответы максимально приближены к правильным. Это происходит с помощью специальных алгоритмов, которые сравнивают её ответы с правильными и понемногу корректируют параметры, чтобы в следующий раз она отвечала лучше. Эти параметры — просто очень много маленьких чисел, которые определяют, как именно модель обрабатывает текст. Их можно представить как настройки, которые говорят: если видишь такое-то слово — скорее всего, дальше должно быть вот это. Эти числа и есть внутренняя "память" модели. Чем их больше, тем сложнее и точнее может быть поведение модели, но тем больше ресурсов (оперативки и вычислений) она требует.

Для того чтобы использовать такие модели на обычных компьютерах или мобильных устройствах, применяется квантование — процесс, при котором точность хранения параметров модели понижается. Например, вместо 32-битных значений используются 8-битные или даже 4-битные. Оперативная память видеокарты (VRAM) — это временное хранилище данных, которое нужно компьютеру, чтобы быстро обрабатывать информацию. Когда запускается большая нейросеть, она загружает в VRAM все свои параметры (а их могут быть десятки гигабайт). Если уменьшить точность этих параметров — например, хранить каждое число не в 32 битах, а в 8 — то и места в памяти потребуется в 4 раза меньше. Это и называется снижением требований к железу компьютера и ускорить работу модели, но при этом может снижаться точность — появляются "кривые" ответы, особенно в задачах, где важны тонкие смысловые различия или расчёты.

Одной из ключевых проблем современных чат-ботов является их склонность к галлюцинациям — выдумыванию фактов. Это происходит потому, что модель не имеет встроенного представления о том, что истина, а что нет. Она просто продолжает текст на основе вероятностей, выученных в ходе обучения. Если заданный вопрос выходит за пределы известных ей шаблонов или знаний, она всё равно попытается дать ответ, пусть даже вымышленный. Это происходит потому, что модель устроена так, что всегда должна продолжать текст — она не умеет просто остановиться или сказать "не знаю". Её задача — генерировать следующий фрагмент текста, даже если для этого приходится "фантазировать".

Также у нейросетей есть слабое место в области математики. Но не только там. Проблемы могут возникать и в логических задачах, и в работе с датами, и в других ситуациях, где нужен точный пошаговый расчёт или строгая логика. Они не решают уравнения в привычном смысле, а лишь запоминают, как выглядят ответы на похожие примеры из обучающего корпуса. Поэтому на нестандартные задачи или длинные вычисления они могут отвечать с ошибками, особенно если используются квантованные модели, в которых пострадала точность числовых представлений. Именно поэтому нейросеть может легко ошибиться в простой арифметике, но при этом с уверенностью заявить, что её ответ правильный.

Ограничения в ИИ

Помимо технических ограничений, на работу чат-ботов сильно влияет политика компаний. Разработчики часто специально убирают из моделей определённые темы или знания. Это делается, чтобы избежать скандалов, критики или нарушений закона. Под запрет могут попасть политика, религия, войны, исторические события или обсуждение известных людей.

Модель может не отвечать на такие вопросы, давать слишком общий ответ или просто писать, что не может это обсуждать. Иногда даже обычные и полезные знания исчезают, если кто-то посчитал, что они могут вызвать споры или недовольство. В итоге чат-бот может выглядеть так, будто он «не знает», хотя на самом деле его специально этому не учили.

Пример: от этого страдают не только учёные, но и студенты, и специалисты, работающие в разных отраслях. Например, физики-ядерщики не могут использовать чат-бота, чтобы поговорить о принципах работы ядерного оружия или цепной реакции. Хотя эти вещи давно не являются секретом и изучаются в университетах, модель специально "забывает" их — из-за правил безопасности. Это мешает в полной мере использовать ИИ даже в учёбе и науке, хоть и существуют определённые уловки, позволяющие частично обойти такие ограничения.

Такие ограничения — это не ошибка модели, а решение её создателей в Компании, соблюдающие определенные негласные правила. Они сами выбирают, что бот может знать, а что — нет. Но есть нюанс... об этом отдельно во второй части.

Чат-бот не физик!

Чат-бот, основанный на нейросети, никогда не изобретёт новую физику, потому что он не думает, а просто продолжает текст. Он не исследует реальность, не делает эксперименты и не делает открытий. Его задача — угадать, какое слово или фраза должны быть следующими, основываясь на том, что он видел в текстах.

Учёные проводили эксперимент: они обучили нейросеть только на знаниях по физике, доступных до 1930-х годов. Идея была в том, чтобы посмотреть, сможет ли модель сама «догадаться» до квантовой механики или теории относительности. Но этого не произошло. Модель не сделала открытий. Она просто продолжала говорить в духе старой науки т.е. использовать только доступные знания.

Это случилось потому, что нейросети не придумывают новое. Они только используют то, что уже видели (знают), и делают это по шаблонам. У ИИ нет собственных наблюдений, нет возможности провести опыт, нет желания что-то проверить или подвергнуть сомнению. И не забываем про главную цель - ответить человеку.

Новые теории в науке рождаются из вопросов, ошибок, наблюдений и нестандартного мышления. Этого у нейросетей нет. Поэтому они могут быть помощниками: объяснять, систематизировать, находить похожие вещи, анализировать быстро данные, используя всю мощь компьютера. Но быть настоящим учёным — нет.

Однако всё может измениться, если нейросетям дать доступ к новым инструментам и научить ими пользоваться. Например, если у модели будет доступен специальный режим мышления (think), в котором она сможет делать пошаговые рассуждения, а также возможность вызывать и управлять внешними программами или скриптами (tools call), — тогда она сможет не просто повторять, а исследовать и проверять идеи. Это может приблизить её к настоящему научному процессу, хотя и в другой, не похожей на человеческую форме.

Часть 2

Про полезное применение нейросетей, противостояние облачных ИИ и домашних, про темную сторону нейросетей расскажу во второй части! Не скучайте!