Но реальность, как обычно, оказалась куда прозаичнее. Группа исследователей, среди которых медалисты олимпиад по информатике, представила новый бенчмарк LiveCodeBench Pro, который стал для современных LLM настоящим моментом истины. И результаты этого теста говорят о многом.
В мире AI сейчас модно говорить про Embodied AI — искусственный интеллект, воплощённый в физической форме. Но большинство прорывных разработок в этой сфере остаются за закрытыми дверями корпораций. Тем интереснее выглядит релиз RoboBrain 2.0 от китайской исследовательской лаборатории BAAI — это мощная, а главное, открытая модель для управления роботами.
В бесконечной гонке LLM-моделей все привыкли мериться двумя вещами: количеством параметров и строчками в бенчмарках. Но пока одни наращивают мускулы, заливая всё деньгами и мощностями, другие, похоже, решили включить голову. Китайская компания MiniMax выпустила MiniMax-M1 — модель, которая делает ставку не на тупую силу, а на архитектурную элегантность.
Сложно понимать, как писать нейронки на Python?
Парсинг документов — задача, которая звучит просто, но на деле оказывается десятым кругом ада. Попробуйте вытащить таблицу из PDF, не потеряв форматирование, или разобрать отсканированную научную статью со схемами и формулами. Обычно на выходе получается месиво, которое проще перепечатать вручную.
Есть контент, который не стареет. Например, туториал от Андрея Карпатого, где он с нуля на Python собирает и тренирует GPT.
На днях стало известно, что австралийская компания Canva, прямой конкурент Adobe не просто разрешает, а требует от кандидатов на должности Frontend, Backend и ML-инженеров использовать AI-помощников вроде Copilot во время технических собеседований.
Европейцы из Mistral наконец-то выкатили свою "думающую" модель, а OpenAI молча подняли планку, выпустив ультимативного "профессионала" и сопроводив это философским эссе от своего CEO.
Наткнулся на проект Memvid — это Python-библиотека, которая предлагает интересный подход к RAG. Вместо того чтобы разворачивать тяжелые векторные базы данных, которые жрут RAM и требуют серверов, эта штука кодирует миллионы текстовых чанков в один компактный видеофайл.
Тут Федеральный резервный банк Нью-Йорка выкатил свежий рейтинг специальностей с самой высокой безработицей в США.