Искусственный интеллект: старые темки о главном
Запомните одну простую мудрость в отношении нашего менеджмента — если кто-то усиленно затирает, что нам нужно что-то сделать, то этот кто-то хочет просто распилить денег.
За последние 15 лет Казахстан прошёл через целую серию “инновационных” повесток: от идей превратить АПК в драйвер экономики до программ цифровизации и создания “супер-приложений”. Каждая новая тема сопровождалась громкими обещаниями, но на практике превращалась в механизм перераспределения бюджета.
Вот и последние два года министерство цифровизации в лице Багдата Мусина (который уже ушел) отчаянно трясется и то и дело напоминает о необходимости разработки собственной языковой модели.
Никто из заинтересованных лиц в сущности вам и не объяснит нормально зачем. Но причина всего одна — на этом можно очень много заработать.
Важно понимать: современные AI-системы базируются на математических принципах и применяются в коммерции и науке ещё с начала 2000-х.
Даже в Казахстане часть крупных IT-компаний уже давно в той или иной форме использовали свои и коробочные ML и DL решения: от чат-ботов и биометрии до скоринга кредитных данных и рекомендательных технологий.
Все поменялось в 2022, с появлением LLM от OpenAI как массового пользовательского продукта.
То, что это случилось именно с LLM вполне естественно и неизбежно.
Во-первых, потому что наш вид общается посредством языка и письма, во-вторых, потому что на данный момент LLM это самый сложный архитектурный продукт (глубокая нейросеть с self-attention), который очень сильно масштабируется в использовании.
В базе своей любая LLM модель сводится к NLP (нет, не к нейро-лингвистическому программированию, а к Natural Language Processing), но этим не ограничивается.
Почему? Потому способность машины обрабатывать человеческую речь в письменном виде ломает все привычные паттерны HCI, что существовали последние лет 100.
Шайтан-коробка учится понимать человеческую речь, правильно ее интерпретировать и выполнять желаемые задачи. Задачи могут быть самыми разными.
Несмотря на это, стоит понимать – то, что продают нам как искусственный интеллект на самом деле не является интеллектом.
Пока что у самых продвинутых современных LLM (что экспериментальных, что коммерческих), нет имплицитного понимания языка, как и нет имплицитного понимания и сциентности чего-либо вообще. Это сложные математические архитектуры, суть которых игра в китайскую комнату.
И чтобы эти сложные математические архитектуры работали, их нужно учить.
В чем проблема создания своей LLM для нас? Ну, банально в том, что непонятно, зачем.
Чиновники услышали слово "ИИ" и думают, что шайтан из под коробки поможет им закрыть косяки многолетнего проеба полимеров в этой стране, поможет разрабатывать законы а еще переложить на него всю ответственность.
Нет каких-либо критериев успеха, понятия, как этот инструментарий будет использоваться.
Доходит до абсурда, что некоторые чиновничьи мужи в личных беседах приводят пример Албании, дескать, вот у них "ИИ" будет прозрачностью госзакупок заниматься, и у нас тоже так можно.
Не поймите неправильно, использовать ИИ смысл есть, а вот тратить кучу бабок на разработку своего — нет бабок и нет смысла.
”ИИ” в Казахстане нормально так развивался на базе коммерческих разработок и применения, но какого-то институционального развития в рамках научных исследований и изучения у него нет.
Та же самая KazLLM это дообученная модель на базе lama. Вообще-то, это вполне классно и неплохо, и более того, уже пригодно для использования. Но если ее использовать, денег попилить уже не выйдет, или выйдет гораздо меньше. В общем, чуть-чуть попортится малина у серьезных людей.
У нас нет собственных внутренних LLM-наработок. В России несколько крупных игроков и энтузиасты, которые начинали с rule-based approach методов, BERT и GPT-3. На Западе, Китае и США есть целые кафедры и институты изучения и разработок всего, что связано с AI. У нас есть кредитный скоринг, который рассчитает под какой объем выдать кредитный лимит в Каспи Ред.
Ну, это пол беды, потому что данных для обучения на казахском буквально нет. В казахской версии Википедии всего 240 тысяч статей, а если каким-то чудом вэбскреппить казнет и пытаться собирать common crawl (то есть собирать данные для обучения из открытых пользовательских материалов), ничего хорошего не выйдет — LLM-ка начнет требовать забастопка и погашение кредитов, параллельно доказывая, что Иисус был адайцем.
Это я молчу о качестве казахского языка в казнете, который чаще всего представляет собой “сен ахуелсынба” и морфологический суржик с языковыми конструкциями уровня "экономикалық жаңалықтар".
Строить свою универсальную LLM очень дорого. Для бизнеса не имеет смысла (есть уже простое и дешевое решение, которое прекрасно работает), ну а в квазигосе уже понапридумывали всякие AI-sana
Подозреваю, что с входными данными, как у нас, будет еще дороже. Даже если получится достичь каких-то результатов, то это все равно будет бездонная дыра для бюджета с околонулевым КПД.
Больше всего прикалывает, что машинное обучение и его принципы, которые вне госсектора уже много где используются для самых разных процессов, теперь будут внедрять через жопу и называть искусственным интеллектом, на пару с обычными мерами по автоматизации. Через пару годков скорее всего все уляжется, обыватель забудет, а нужный карман будет забит зелеными долларами. И так до следующей лихорадки.