Новостной дайджест №12
Что интересного произошло в мире нейронок за прошедшую неделю? (02.09.2025)
→ Перейти к буквам
→ Перейти к картинкам
→ Перейти к звуку
→ Перейти к видео
→ Перейти к разному
← Перейти к прошлым дайджестам
🟢 Буквы
Kimi AI: генератор презентаций с ИИ-исследованием и дизайн-шаблонами Вышел новый китайский инструмент Kimi AI, который создаёт презентации по PDF или текстовому описанию, автоматически подбирая данные и оформление.
📝 Алгоритм анализирует загруженные документы (или веб-страницы) и генерирует структуру презентации с ключевыми выводами. Поддерживает 100+ шаблонов (включая корпоративные стили PPT) и интеграцию с LaTeX для формул. Экспортирует в PPTX/PDF/HTML.
📎 Бежим сравнивать с Gemma.App вот тут
YandexGPT 5.1 Pro: бизнес-ИИ с улучшенным российским контекстом
Вышла новая версия YandexGPT 5.1 Pro, которая сокращает галлюцинации и оптимизирована для RAG, function calling и работы с российскими юридическими/финансовыми документами.
📝 Модель обучена на данных до июня 2025, включая нормативные акты РФ. Поддерживает контекст 200к токенов и интеграцию с 1С/Битрикс. В тестах показала точность 92% в задачах на понимание российского законодательства.
📎 Подробнее в Форбс
🟡 Картинки
Nano Banana: image-генератор от Google в AI Studio, Comfy, Freepik, Higgsfield и Krea
Компактная модель Nano Banana, которая оказалась Gemini-2.5-flash-preview, от Google стала доступна на 5 платформах (AI Studio, Comfy, Freepik, Higgsfield, Krea) и оптимизирована для редактирования изображений с помощью текста.
📝Nano Banana выделяется низкими требованиями к ресурсам и специализацией на обработке низкокачественных изображений. В Comfy интегрирована через API nodes, в Freepik — для реставрации старых фото, в Higgsfield — с безлимитным доступом (но с очередью). Пользователи отмечают высокую детализацию при генерации аниме и ретро-стилей.
📎Бесплатно можно попробовать тут (Нужен хороший VPN)
VoxHammer: редактирование 3D-моделей без обучения по тексту и изображениям
Вышел инструмент VoxHammer, который позволяет точно редактировать 3D-объекты через текстовые промпты или референс-изображения, не требуя предварительного обучения. Работает на основе диффузионных моделей и воксельных представлений. Поддерживает добавление/удаление объектов, изменение текстур и освещения, сохраняя топологию модели. Тестировался на архитектурных макетах и игровых ассетах.
📝Загружаем 3D-модель в .obj/.fbx — Вводим промпт — Получаем изменённую модель
📎Читаем подробнее тут
🔵 Звук
OpenAI gpt-realtime: голосовой ИИ с минимальной задержкой и Realtime API Новая модель gpt-realtime и общедоступный Realtime API улучшают голосовые помощники: меньшая задержка, естественная речь и точное следование инструкциям. Gpt-realtime оптимизирована для диалогов в реальном времени (задержка <300 мс). Поддерживает прерывания, эмоциональную окраску и контекстные подсказки. Realtime API включает функции транскрибации, генерации речи и управления потоком разговора.
📝 Подключаем Realtime API к своему приложению через SDK — Настраиваем параметры голоса (тон, темп, акцент) — Интегрируем с IoT-устройствами для голосового управления — Автоматизируем ответы на звонки с адаптацией под клиента — Анализируем эмоции собеседника в реальном времени
📎Все подробности тут
Sync.so: липсинк с клонированием голоса и таймлайном
Обновлённая версия Sync.so добавляет клонирование голоса и редактирование таймлайна для точной синхронизации губ с аудио.
📝Поддерживает загрузку любых видео (включая TikTok/YouTube) и генерацию речи на 50+ языках. Таймлайн позволяет корректировать мимику по кадрам. Применяется для дубляжа фильмов, создания deepfake-контента и озвучки анимации.
📎Попробовать можно здеся
🟣 Видео
HeyGen Digital Twin + Avatar IV: полнотелые аватары с реалистичными движениями
HeyGen расширили Digital Twin поддержкой полнотелых аватаров (Avatar IV), способных жестикулировать и двигаться естественно. Технология захватывает движения пользователя через веб-камеру и переносит их на 3D-аватар в реальном времени. Поддерживает кастомизацию внешности, одежды и мимики. Применяется для создания виртуальных ведущих, онлайн-курсов и метaverse-проектов.
📝Загружаем селфи или видео для сканирования лица — Выбираем телосложение и стиль одежды в редакторе — Настраиваем жесты через панель «Motion Capture» — Интегрируем аватар в как виртуальную камеру — Получаем видео с анимацией аватара по сценарию (Можно использовать на очень длительных и скучных созвонах, например)
📎 Подробнее смотрим тут
Google Vids: генерация видео, оживление картинок и говорящие аватары
Google Vids обновился и получил ИИ-инструменты для создания видео из текста, анимации статичных изображений и синтеза речи для аватаров.
📝 Поддерживает генерацию видео длиной до 2 минут в 1080p, стилизацию под аниме/реализм и автоматическую синхронизацию губ. Интегрирован с Google Workspace для совместной работы. Оживление картинок работает через анализ глубины и движения (например, «заставить портрет улыбаться»).
📎Всё интересное тута
Krea.ai Realtime Video: генерация видео в реальном времени
Krea.ai открыл wait-list для инструмента реалтайм-генерации видео по промптам, изображениям или веб-камере с частотой 12+ fps.
📝Технология использует диффузионные модели с низкой задержкой, оптимизированные для GPU. Поддерживает стилизацию под аниме, киберпанк или реализм. В бета-версии доступны пресеты для стримов (например, «футурстический фон для подкаста»). (Можно будет сделать вид, что тебя съел тигр прямо на созвоне и пойти обедать пораньше)
📎Подробнее тут
NotebookLM Video Overviews: 80 языков + эмоциональная озвучка
Нейросетка, которая предназначена для скармливания книг — NotebookLM от Google получила функцию Video Overviews с поддержкой 80 языков (включая русский) и улучшенной эмоциональной озвучкой для презентаций и подкастов.
📝Алгоритм анализирует текст/видео и автоматически создаёт голосовое сопровождение с интонациями (радость, серьёзность). Поддерживает загрузку PDF/PPT и генерацию скриптов для YouTube. Интегрирован с Google Drive для совместной работы.
📎Подробнее тута, а пробуем здеся (Нужен хороший VPN)
🟠 Разное
NVIDIA Jetson AGX Thor: супер-мини-ПК для AI
NVIDIA представила Jetson AGX Thor — самый мощный мини-ПК в линейке с 2070 терафлопс и 14-ядерным Arm, превосходящий Mac Studio по производительности благодаря CUDA. Jetson AGX Thor оснащён GPU Blackwell, 128 ГБ памяти и стоит от $3499 (поставки с ноября 2025).
📝 В сравнении с Mac Studio (m4 Max/m3 Ultra) он выигрывает в AI-задачах за счёт оптимизаций под CUDA, но уступает в экосистеме Apple для креативных приложений.
📎 Подробнее тут
Новость для погроммистов: Flash Attention 4: ускорение GPU Blackwell на 22% с новыми алгоритмами
Новая версия библиотеки Flash Attention 4 оптимизирует вычисления на GPU Blackwell, повышая скорость на 22% за счёт эмуляции экспоненты и online softmax. Написана на Python с использованием CuTe DSL. Поддерживает динамические последовательности и снижает накладные расходы на память. Идеальна для трансформеров и диффузионных моделей.
📝 Интегрируем в PyTorch/TensorFlow через API — Заменяем стандартные attention-слои на `flash_attn` — Настроить параметры для конкретной архитектуры (например, `block_size` для Blackwell)
📎 Качаем отсюда
HRM: ИИ-мозг с 27 млн параметров, превосходящий ChatGPT в рассуждениях Создали иерархическую модель рассуждения (HRM), вдохновлённую человеческим мозгом, обучается на 1000 примерах и обходит ChatGPT в логических задачах.
📝 HRM использует модульную архитектуру для имитации нейронных связей. Показывает лучшие результаты в тестах на абстрактное мышление и причино-следственные связи, несмотря на малый размер (27 млн параметров против 175 млрд у GPT-3). Её можно применять для научных исследований (гипотезы, анализ данных), встраивать в образовательные платформы для объяснения сложных концепций, использовать в робототехнике для принятия решений в нестандартных ситуациях и многом другом.
📎 Почитать подробнее тут
Киберпсихозы и влияние ChatGPT на речь: как ИИ меняет мышление
Вышли исследования, которые выявили риски «делюзионных спиралей» от общения с ChatGPT и стандартизацию лексики под ИИ-шаблоны в повседневной речи, а ещё, что длительные диалоги с ИИ могут провоцировать манию величия (например, пользователи начинают верить в свою «избранность»).
📝Анализ Newsweek показал, что фразы из ответов ChatGPT (вроде «важно отметить») проникают в разговорный английский, снижая языковое разнообразие. И в новостях начинают мелькать всё больше страшных заголовок про суицид и убийства, где замешаны ИИ-чаты
📎Само исследование
Claude for Chrome: AI-ассистент для автоматизации задач в браузере
Anthropic тестирует расширение Claude for Chrome, которое управляет вкладками, заполняет формы и суммирует контент по голосовым командам.
📝 Поддерживает 30+ действий: от парсинга данных с веб-страниц до генерации ответов на email. Ограничения безопасности блокируют работу с банковскими сайтами. В превью-версии доступно 100 бесплатных запросов/месяц.
📎 Пробуем тутя