Новостной дайджест №11

Что интересного произошло в мире нейронок за прошедшую неделю? (25.08.2025)

→ Перейти к буквам
→ Перейти к картинкам
→ Перейти к звуку
→ Перейти к видео
→ Перейти к разному
← Перейти к прошлым дайджестам

🟢 Буквы

DeepSeek V3.1: гибридная модель с оптимизированным расходом токенов Обновлённая версия DeepSeek V3 с улучшенной base-моделью, работающая как в режиме рассуждения, так и в обычном.
📝 Модель стала экономичнее в использовании токенов, но значительного роста интеллекта не продемонстрировала. На данный момент доступна только чат-версия, релиз полных весов (R2) ожидается позже.
📎 Подробнее тут

Новый инструмент в подписке ChatGPT Codex CLI — Инструмент для генерации и отладки кода прямо в командной строке с поддержкой последних моделей OpenAI. Он позволяет писать, анализировать и оптимизировать код без переключения между окнами. Лимиты на использование сбрасываются каждые 5 часов и раз в неделю.
📝 Устанавливаем Codex CLI, введя в командную строку «npm: npm install -g codex-cli» — Авторизируемся с помощью API-ключа ChatGPT — Используем команды в терминале, например: codex «напиши функцию сортировки на Python».

Grok-2: открытые веса для некоммерческого использования xAI выпустила в открытый доступ веса старой модели Grok-2. Но с такой лицензией, которая запрещает коммерческое использование и обучение других моделей.
📝 Для запуска требуется видеокарта с 360–720 ГБ видеопамяти (Что-то на ультра-богатом). Модель позиционируется как альтернатива закрытым решениям и акцентом на прозрачность
📎 Скачать можно отсюда

OpenAI предлагает до 10 млн бесплатных токенов в день за анализ запросов Компания предлагает поучаствовать в программе для пользователей API, согласных предоставить данные о своих запросах для улучшения моделей. Вознаграждение зависит от объёма переданных данных: до 1 млн токенов за базовую активность и до 10 млн за крупные проекты. Подходит для стартапов и исследователей.
📝 Переходим в настройки организации — Активировать опцию «Data Sharing» — Использовать API как обычно: токены будут начисляться автоматически
📎 Подробнее тут

🟡 Картинки

Meta 🤝 Midjourney Meta получила лицензию на технологии Midjourney для улучшения генерации контента, включая аватары и цифровых инфлюенсеров.
📝 Сделка направлена на интеграцию передовых инструментов Midjourney в экосистему Meta, что позволит усилить визуальные возможности платформы. Ожидается улучшение качества генеративного контента для рекламы, соцсетей и виртуальных миров. Пока детали использования не раскрыты, но ожидается, что технологии Midjourney будут интегрированы во все продукты Meta AI.
📎 Источник тут

Runway Game Worlds: текстовые игры с автоматической визуализацией Runway выпустила свою платформу для создания ИИ-игры с генерацией изображений по ходу игры.
📝 Пользователи могут играть в готовые игры или создавать свои собственные, где каждый ход сопровождается визуализацией сцен. Поддерживаются сложные сюжеты и взаимодействия с объектами.
📎 Пробуем тут

Marvelous Designer: генерация поз для 3D-одежды по тексту и изображениям В одном из самых известных приложений для создания одежды появились новые инструменты: text2pose и image2pose, для автоматического создания поз персонажей в 3D.
📝 Функции позволяют сгенерировать позу на основе текстового описания или референсного изображения, но скорость обработки пока оставляет желать лучшего (серверные ограничения).
📎 Посмотреть как это выглядит можно на Ютубе

ComfyUI-Copilot: ИИ-ассистент для автоматизации рабочих процессов Вышел инструмент для генерации, отладки и оптимизации рабочих процессов в ComfyUI — одной из главных платформ для работы с локальными нейросетями, в которой без пол литра не обойтись. Инструмент позволяет автоматически создавать сложные цепочки узлов, исправлять ошибки и подбирать оптимальные параметры. А ещё ComfyUI обновился — добавили несколько новых нод.
📝 Устанавливаем ComfyUI-Copilot через менеджер кастомных узлов — Получаем API-ключ на странице проекта и вводим его — Вводим промпт — Ждём, пока Copilot соберёт и оптимизирует рабочий процесс — Запускаем генерацию (Дорабатываем результат при необходимости)
📎 Подробнее тут

Hera Motions: генерация анимации для соцсетей по текстовому промпту Инструмент для создания динамичных анимаций с типографикой и движениями для рилсов, сторис и рекламы.
📝 Поддерживает экспорт в MP4, GIF, MOV (включая 4K), предлагает шаблоны для быстрого старта. Идеально подходит для контент-мейкеров и маркетологов.📎 Пробуем тут

Mirage 2: генерация интерактивных миров по одному изображению Очередная модель, которая создаёт миры с физикой и взаимодействиями, но в этот раз — только по одной картинке.
📝 Генерация может занять 45+ минут, но результат позволяет исследовать пространство в 3D с динамическими объектами. Подходит для прототипирования игр или виртуальных туров. И ВСЁ ЭТО ПО ОДНОЙ КАРТИНКЕ!
📎 Пробуем тут

World Labs: генерация интерактивных миров по одному изображению Модель от китайского стартапа создаёт консистентные 3D-миры с динамическими объектами на основе 2D-изображения.
📝 Акцент на том, что нет ограничения по длине сцены. Потенциально применима в играх, симуляторах и виртуальной реальности.
📎 Подробнее тут

DLSS в Blender (alpha): апскейлинг рендера Блендер представила интеграцию технологии от Nvidia для ускорения рендеринга в с сохранением качества и поддержкой анимации.
📝 Это позволит рендерить сцены в более низком разрешении с последующим апскейлингом до 4K, сохраняя детали и стабильность для анимаций. Короче, 3д-сцены теперь можно будет делать быстрее. Этот подход уже применяется в играх.
📎Пока доступно в альфа-версии, подробнее можно прочитать на реддите.

🔵 Звук

MiniMax Speech 2.5: клонирование голоса с поддержкой 40 языков и эмоций Обновлённая модель для точного воспроизведения голоса с улучшенными интонациями, особенно в английском и китайском.
📝 Обновление принесло более естественные интонации и эмоциональную окраску, а также расширенную языковую поддержку. Доступно через веб-песочницу и API для интеграции в сторонние проекты.
📎 Пробуем тут

GigaAM: эффективный метод предобучения для распознавания речи (ASR) Сбер рассказали про новый подход на основе CTC-модели, показывающий лучшие результаты для русского языка среди open-source решений.
📝 Метод сокращает потребность в больших объёмах размеченных данных, используя самообучение. Подходит для создания многозадачных ASR-систем с низкими затратами на обучение.
📎 Короче, что-то на умном тут

🟣 Видео

Runway 🤝 Google Runway добавили к себе модель Veo 3 от Google для создания видео по тексту или изображениям с возможностью добавления звука (Эта та самая модель, которая вирусилась в соцсетях с бабушкой с бегемотом и интервью в стиле «А вы знаете, что вы нейросеть?»)
📝 Заходим на Runway — Выбираем режим «Chat Mode» и модель Veo 3 — Загружаем изображения или вводим текстовый промпт — Добавляем аудиодорожку — Получаем видео, которое можно отредактировать прямо в интерфейсе.
📎 Пробуем тут

Waver 1.0: универсальная модель для генерации видео и изображений Новая модель поддерживает Text-to-Video и Image-to-Video с разрешением до 1080p и длительностью до 10 секунд.
📝 Генерирует высококачественный контент с плавными переходами и детализацией. Доступна через API и дискорд-сервер для тестирования.
📎 Пробуем тут

🟠 Разное

GPT-5 Pro совершил прорыв в математике и алгоритмах обучения нейросетей Модель улучшила математическую границу в выпуклой оптимизации и предложила новое решение для алгоритмов обучения нейросетей.
📝 Нейросеть за 17 минут улучшил известную границу с 1/L до 1.5/L, а также проанализировал научную статью и предложил инновационное решение, позже доработанное исследователями. Это первое подтверждённое открытие, сделанное ИИ без прямого участия человека на начальном этапе.
📎 Подробнее в твиттере

Netflix установил правила использования ИИ на своей платформе Компания запретил использовать ИИ для генерации финальных кадров или лиц актёров без их согласия.
📝 Но разрешила применение ИИ для черновиков, концепт-артов и вспомогательных задач при условии прозрачности для зрителя.
📎 Подробнее можно прочитать тут

Мозговой имплант с ИИ для расшифровки мыслей В Стэнфорде научились читать мысли… Ну или почти. Система от Стэнфордского университета записывает нейронную активность и переводит её в текст с защитой конфиденциальности.
📝 Чип имплантируется в мозг и передаёт данные ИИ-модели, которая восстанавливает речь с точностью до 74%. Включает «ментальный пароль» для блокировки несанкционированного доступа. Технология находится на стадии исследований.
📎 Подробнее тут