Сравнение ИИ в разных текстовых задачах.
Всем привет! Раньше я вёл криптоканал в телеграм, но сейчас нет времени заниматься поиском разных темок и я перешёл из ресёрча в разработку и торговлю фондой. Обязательно подпишитесь на мой новый канал ПошКодим, где публикуются не только посты из медиум но и другой авторский контент.
Пользуюсь разными ИИ больше года, но в основном использовал их для написания кода. Но на днях понадобилось решить некоторые задачи, которые я обычно делал вручную или просто забивал на них, решил поэкспериментировать, как с ними справятся разные ИИ.
Оглавление:
Расчёт CRC-16 задачка на математику
Знакомство с ИИ
Итак сегодняшние герои в последовательности, как я их начал использовать:
- ChatGPT — первый общедоступный ИИ от компании OpenAI, подразделения nVidia, крупнейшего производителя видеокарт для обучения ИИ.
- Claude — создана ребятами, которые вышли из OpenAI из-за разногласий в плане коммерциализации ИИ и создали свой стартап Anthropic.
- Perplexity — Стартап, который использует языковые модели от OpenAI и Anthropic.
- DeepSeek — Китайский ИИ получивший широкое развитие в 2024 году.
- Grok — ИИ созданный при помощи Илона Маска, использующий принцип, что информация должна быть свободной.
- Klok — Блокчейн разработка, использует языковые модели OpenAI, DeepSeek и др.
Программирование
Моё знакомство с ИИ начиналось с написания кода для создания фермы для работы с игрушками на WAX блокчейне. Тогда альтернатив не было, использовал ChatGPT. Затем использовал его для получения доступа к токенам из NFT, доступ к которым заблочили через сайт для РФ. В итоге он написал код, который мне ничем не помог. Возможно из-за того, что требовался мультисиг, тогда я совсем не разбирался в вёб3 кодинге.
Далее использовал ИИ для написания программ для микроконтроллеров STM32 на C++. На тот момент использовал уже ChatGPT, Claude и Perplexity. Сравнивал их между собой. По моему мнению первенство однозначно у Claude.
ChatGPT тоже пишет в целом нормальный код, но он чаще использует странные или непонятные для меня конструкции. А ещё он очень много болтает.
После того, как начал обучение питону у Ахиллари, после решения очередного урока, решил проверить, как разные ИИ решат каверзную задачку про мороженное. Всё общение по программированию стараюсь вести на английском языке, так ИИ лучше понимает задачу.
Запрос был ко всем одинаковый:
Write a program in python: The cafe sells portions of 3 and 5 balls of ice cream . Is it possible to buy exactly k ice cream balls
Все примеры получились рабочими. Но есть нюансы. Чат и Плекс, как по мне, используют усложнённые формулы для расчёта, а Клава рекурсивно вызывает свою функцию пока не найдёт решение. Казалось бы код у клавы получился длиннее, но он для меня более удобочитаем, чем разбор формул. И ещё один вопрос, можно-ли купить 0 шариков мороженного?
По условиям задачи можно купить только порции по 3 и 5 шариков. Порцию с 0 шариками купить нельзя. Отгадайте кто из ИИ считает также?
В общем и целом Клава для меня показалась наиболее удобной в плане решения задач по программированию. Мне больше понравился именно её подход — мало слов много дел.
Расчёт CRC-16 задачка на математику
Далее у меня была одна очень практичная задача, правильно рассчитать CRC, по даташиту на одну микросхему. Я скормил методику расчёта из даташита всем мне известным ИИ и никто не смог дать рабочий код. У всех получалось неправильное значение. В итоге, по образцу, я составил очень простой промпт:
I have next bytes 0x01 00 40 F0 D0 Write a C function that calculates CRC-16 for this byte sequence equal to 0xC029.
В прошлом эксперименте был один победитель — Клава. Во первых она буквально выполнила мою задачу, написала только одну функцию, которая работала. Но самое главное, эта функция выдавала верный результат.
Ради эксперимента я сегодня повторил этот промпт на всех ИИ, включая те, которые прежде не участвовали.
DeepSeek. Ссылка на гист. Код выглядит нормально, даже добавил main функцию, хотя никто его об этом не просил. Код компилируется, работает.
ChatGPT. Ссылка на гист. Код компилируется и работает. Чат также добавил main функцию.
Claude. Ссылка на гист первый код. Полностью чистый ответ от Клавы, к сожалениюне сохранился, поэтому код уже переделанный под мои нужды. Ссылка на гист второй код. Во время первого использования, больше года назад, как я и просил просто написала нужную функцию. Сегодня как и остальные добавила функцию main. Код компилируется, работает.
Perplexity. Ссылка на гист. Изначальный код не компилируется. Забыл добавить стандартные библиотеки #include <stdio.h> #include <stddef.h>. После добавления код компилируется, работает.
Grok. Ссылка на гист. Изначальный код не компилируется, забыл добавить библиотеку #include <stdio.h> После подключения библиотеки, код компилируется, работает.
Klok (deepseek r1). Ссылка на гист. В отличие от всех остальных, сделал просто функцию, которая должна запускаться, как я и просил. А затем дописал ещё кусок кода, который назвал Полный образец кода. В котором, как и все остальные написал минимально необходимую программу для запуска кода.
А теперь результаты правильности выполнения кода. Объявление победителей! Напоминаю в результате выполнения программы должно было получиться число 0XC029 или хотя бы число 0x885D, если программа забыла переставить старший и младший байт местами
НИКТО! НИКТО из новых ИИ не справился с задачей, которую решила Клава старой модели больше года назад.
Составление вопросов на войс
Но на днях решил попробовать использовать ИИ для генерации вопросов для войса и выбора среди них 5 наиболее актуальных.
В целом можно сказать, что все ИИ справились с генерацией вопросов хорошо, разве что могу выделить Грок, который придумал вопрос:
То есть он единственный предложил использовать продвижение моего канала напрямую на войсе, это круто. Но что мне в нём не понравилось это очень много букв. Хотя нет. Много букв это про Чат. У Грока прямо нереально много букв. Он очень долго рассуждает, думает, после чего выдаёт ответ.
При этом Grok сначала проанализировал 20 сайтов, посвященных продвижению в телеграм. Затем сформулировал основные мысли вопросов. Затем уточнил вопросы сверяясь с сайтами, посвящёнными продвижению телеграм каналов. Проверил канал главного гостя войса, поискал различные платформы для рекламы и начал анализировать сайты посвящённые развитию канала связанного с програмированием. На этом предварительная подготовка завершилась. Затем Грок выделил ключевые моменты и составил предварительные вопросы, затем снова проанализировал канал главного гостя войса, проанализировал мою ситуацию и нишу и после этого выдал окончательные варианты вопросов.
Это было очень долго, но если вчитаться во всё, что он написал, можно почерпнуть для себя очень многое. И в завершение он написал почему считает именно эти вопросы важными.
Клава и Плекс отвечают очень минималистично, что в данном случае скорее минус, хотя Плекс добавил подвопросы, но они дублируют основной вопрос, а также он как бы поручает мне задавать вопросы, а не строит диалог с тем кому их нужно задать.
Чат и Дип справились с этим лучше:
Чат поясняет почему он задаёт тот или иной вопрос, в данном контесте он был не слишком разговорчив. Тут-же добавляет эмодзи для оформления поста.
Дип из контекста промпта выделяет важные, по его мнению моменты, и дополняет основной вопрос дополнительными вопросами, опираясь на полученный опыт.
Также понравились вопросы от Klok, который в данном случае использовал модель deepseek r1, но к сожалению из-за огромной нагрузки на сайт из-за того, что он участвует в криптоаирдропе делают его малополезным. Он очень часто зависает, не обрабатывает запросы. ИИ хороший, но, как говорится, есть нюансы. Когда вся эта возня с аирдропом завершится, надеюсь можно будет им нормально пользоваться, ибо выглядит перспективно, несмотря иногда появляющиеся иероглифы и латинские буквы в тексте ответа.
Дальше я предложил этим ИИ выбрать из всего списка вопросов, что они насоставляли, 5 самых важных, на их взгляд. Что они и сделали. Я выбрал те, что понравились мне и составил последний промпт, попросив их оформить посты в телеграм стиле.
Grok сделал минималистичное оформление с разбивкой по параграфам и выделением жирным шрифтом. Но у него нет кнопки скопировать, поэтому самостоятельно выделил и вставил текст в телеграм. Точнее кнопка то есть, но вы же не забыли, что Грок это очень-очень много букв?
Плекс на сайте изобразил что-то невразумительное, однако при копировании содержимого в телеграм, появилось строгое оформление:
Клава сделала красивое оформление, добавила заголовок, дату начала войса и добавила хэштеги.
Идея с хэштегами мне показалась интересной, но после ресёрча понял, что от них в текущей ситуации лучше отказаться.
Оформление поста у Дипа выглядит очень похожим на Клаву, но расписал более подробно.
Чатик в своём сказочном стиле, но но удивление оказался очень кратким. Самым кратким из всех:
Клок сделал ответ в стиле Чата, хотя была выбрана модель Дипа r1. Заметны артефакты в тексте.
Все кроме Грока по неведомой мне причине подумали, что я организатор войса и занимаюсь его продвижением, и соответствующим образом подготовили статьи.
В заключение разбора вопросов у меня есть очень важный для меня вопрос ко всем подписчикам моего канала ПошКодим. Пожалуйста ответьте на него, от ваших ответов будет зависеть стиль оформления канала.
Составление отчёта начальству
И последняя задача, в которой я попробовал разные ИИ это из списка систем кондиционирования сделать некий отчёт, показать плюсы и минусы каждого варианта. Предварительно я нашёл несколько систем, выписал их достоинства, недостатки, некоторые свойства и попросил ИИ их систематизировать в виде отчёта.
Текст на картинках получаются мелким и неразборчивым, но надеюсь основную суть оформления можно увидеть.
Грок сделал всё в строгом стиле, при этом ссылки из формата обычных ссылок сделал в виде текста, то есть не поленился зайти на сайт авито и прочитать заголовки и добавил название сайта в начале ссылки. Сделал какую то типовую шапку и футер с данными для заполнения, от такого то такому то такой то отчёт с указанием даты. Также выдал рекомендации по применению каждого типа системы.
Плекс сделал чёткую структуру и форматирование документа. Добавил название для каждой системы из заголовка полученному по ссылке. Самостоятельно сделал выводы и дал рекомендации по применению.
Клава озаглавила, что это именно отчёт, но без подробностей. Получил названия систем кондиционирования из заголовков объявлений. Также сделала выводы и рекомендации применения, сделав ранжирование по трём параметрам: Энергоэффективность, Равномерность температуры и Соотношение цена/производительность.
Дип получил названия оборудования с сайта, сделал чёткую структуру текста. Сделал рекомендации по каждому виду оборудования и вывод, какое оборудование в какой ситуации лучше применить.
Чат единственный, кто не полез в интернеты, для того, чтобы уточнить хотя бы название оборудования. Форматирование стандартное, выводы сделал по каждой системе.
Мои выводы по последнему заданию:
- Все кроме Чата умеют и пользуются интернетами.
- Оформление у всех приблизительно одинаковое, выделяется разве что Грок с его шапкой и футером.
- Чатик допустил критичную ошибку, отнеся потребление 25кВт в Достоинства: Высокая мощность. По факту мощность средняя среди обозреваемых и высокая мощность это нифига не достоинство, если пересчитать на рубли:-) Причём на следующем комплекте оборудования он исправился и сказал, что Высокое энергопотребление (40кВт) это уже недостаток.
- Клава единственная, кто среди этих мужиков сделала ранжирование по нормальным признакам: энергоэффективность, равномерность охлаждения и соотношение цена/производительность. Среди оборудования был явный аутсайдер, проигрывающим по всем параметрам, она его просто не стала упоминать в выводах.
Мои предпочтения по ИИ.
Клава для меня остаётся лидером в плане помощи в написании программ.
По каверзным задачам, где требуется глубокий анализ скорее выделю Грока и Дипа.
Ну и в закладках оставляю Клока, посмотрим, как он будет развиваться в дальнейшем.