Понедельничный дайджест №8

Что интересного произошло в мире нейронок за прошедшие две недели? (27.05.2025)

→ Перейти к буквам
→ Перейти к картинкам
→ Перейти к звуку
→ Перейти к видео
→ Перейти к разному
← Перейти к прошлым дайджестам

🟢 Буквы

Contextual AI: парсер документов для RAG Вышел сервис для обработки PDF с сохранением структуры и таблиц. До 500 страниц бесплатно. Модель распознает разделы, таблицы и графики. Переводит документ в чистый текст с метаданными. Интегрируется с GPT и другими LLM
📝 Загрузить PDF → Получить структурированный текст → Использовать в GPT-анализе
📎Пробуем тут
У Grok всё по графику Grok научился создавать линейные, круговые и полярные графики через текстовые промпты.
📝 Ввести данные в чат → Написать «Построй график» → Выбрать тип диаграммы
📎Проверяем тут
GPT-4.1 добавили в ChatGPT GPT-4.1 теперь доступен в ChatGPT, что делает его лучшей не-ризонинг моделью для программирования.
📝 Модель имеет контекст 1 миллион токенов и доступен в различных подписках, включая бесплатную мини-версию.
📎 Проверяем в ChatGPT
Google тестирует дифузионную версию Gemini Gemini Diffusion генерирует текст в 5 раз быстрее Gemini 2.0 Flash Lite благодаря тому, что создаёт сразу весь текст, а не предсказывает следующее слово.
📝 Работает с аудио и текстом через Gemini API.
📎 Пробуем тут
Google Stitch: генерация веб-интерфейсов Новый сервис Stitch от Google генерирует HTML и CSS по описанию.
📝 Инструмент бесплатный, работает через Google. Результаты можно дорабатывать в Figma или VS Code. Доступен в бета-версии.
📎Генерируем интерфейсы тут

🟡 Картинки

Перерисовываем изображения Krea с сохранением лица Krea обновилась и добавила генерацию изображений с сохранением лица и деталей через модель Dough. Требуется референс и промпт, стоимость высока, т. к. модель изначально придумана для видео. Модель позволяет сохранить лицо и одежду персонажа при изменении сцены.
📝 Выбрать модель Dough в разделе «image» → Прикрепить референсное изображение → Написать промпт изменений → Использовать '--no' для фиксации деталей
📎 Проверяем тут
SOAP: стилизованные 3D-портреты по фото SOAP создает анимируемые 3D-портреты по одной фотографии. Поддерживает экстремальные выражения и реалистичные движения. Модель воссоздает волосы, зубы и глаза. Позволяет анимировать сцену без потери деталей.
📝 Загрузить фото → Получить 3D-модель → Импортировать в Blender/Maya
📎 Пробуем тут
Kandinsky теперь для 3D Сбербанк выпустил Kandinsky 3D — модель для генерации 3D-мешей. Kandinsky 3D создает 3D-объекты с интеграцией в CAD-системы. Модель оптимизирована для 3D-печати и геймдева. Поддерживает редактор с частичной перегенерацией, ретопологией и настройкой освещения
📝 Загрузить картинку или описание → Настроить параметры генерации → Получить 3D-модель
📎Тридешимся тут
Topaz выпустил инструмент для апскейла видео прямо у себя на ПК Их новая модельTopaz Starlight Mini позволяет запускать креативный (с помощью нейросетей, т. е. нейросети могут дорисовывать) апскейл на пользовательских GPU (До этого возможна была только отправка на их сервер).
📝 Модель доступна в приложении Topaz Labs Video AI 7
📎 Смотрим тут
Генерация изображений без ожидания! Вышел Hunyuan Image 2.0 Realtime — генератор картинок с миллисекундной генерацией, высокой детализацией и качеством.
📝 Открыть Hunyuan Image 2.0 → Написать промпт → Получить изображение
📎 Пробуем тут (Осторожно, китайский!)
Переодеваемся с помощью Runway Runway запустил API для переноса идентичности и Chrome-расширение для замены одежды на изображениях.
📝 API позволяет передавать стиль и объекты через референсы. Chrome-расширение меняет одежду на картинках, но требует апи-ключа и Copilot Pro.
📎 Подробнее тут
Переодеваемся с помощью Google Shopping Try On Google представила виртуальную примерочную через Search Lab.
📝Есть проблемы с мелкими узорами и цензурой (нельзя купальники примерять)
📎 Проверяем тут (Нужен штатовский VPN)

🔵 Звук

Google представил синхронный перевод в Meet Google Meet теперь поддерживает перевод с сохранением интонации: пока английский и испанский язык.
📝 Включить Meet → Активировать перевод в настройках → Выбрать язык → Получить субтитры/аудио
📎Пробуем на созвонах через гугл-мит
Stability AI выпустили в опенсорс генератор музыки для телефонов Модель позволяет создавать музыку/семплы на устройствах с ARM-процессорами длиной до 11 секунд без доступа к интернету.
📝 Приложения пока нет, подробнее тут
📎Пробуем онлайн
ElevenLabs сделали саундбар Модель SB-1 Infinite Soundboard от 11labs позволяет генерировать звуки промптами и добавлять их на кнопки для смешивания, создавая бесконечный источник закадровых шумов.
📝 Написать промпт для генерации звука → Добавить звук на кнопку → Замиксовать звуки
📎 Диджеим тут

🟣 Видео

Расширяем границы с LumaAI Luma AI добавила функцию «Reframe». Модель Dough в Luma AI достраивает видео за пределы кадра без промпта.
📝 Загрузить видео → Выбрать функцию Reframe → Получить расширенный ролик
📎 Пробуем тут
PDF в видео Гугл начал тестировать раздел Sparks в Google Illuminate — раздел превращает PDF-файлы и ссылки в видеоролики.
📝 Позволяет создать видео по научным работам или книгам. Поддерживает несколько источников в одном проекте. Сейчас в тестовом доступе с штатовским VPN.
📎 Смотрим есть ли доступ тут
KeySync: Автодубляж Вышел KeySync — инструмент для автодубляжа, который переозвучивает видео с сохранением эмоций и попаданием в губы.
📝 Загрузить видео → Загрузить аудио → Получаем переозвучку
📎 Читаем подробнее тут, а вот тут пробуем
Обновился Viggle AI: теперь генерация видео в прямом эфире Обновление позволяет заменить картинку с камеры на генерацию.
📝 Дают месяц на тест
📎 Пробуем тут
Липсинк для нескольких персонажей Hedra добавила функцию попадания в губы нескольких персонажей в кадре. Решение обрабатывает сцены с несколькими людьми. Генерирует отдельное видео для каждого диалога, затем сшивает их.
📝 Загрузить видео с несколькими персонажами → Нарисовать рамку вокруг говорящего → Получить готовое видео
📎 Пробуем на Hedra

🟠 Разное

Китайский агент Manus открыт для всех без листа ожидания Manus — автономный ИИ-агент, объединяющий функции Cursor, Operator и Deep Research. Он частично бесплатный: 300 кредитов в день и 1000 при регистрации
Модель позволяет решать задачи средней сложности за счет выделяемых ресурсов. Для входа нужен VPN и верификация номера (российские работают через Казахстан).
📝 Включить VPN → Зарегистрироваться на сайте → Получить 1000 кредитов → Использовать 300 кредитов в день бесплатно
📎 Смотрим тут
Google I/O: масштабные обновления нейронок от гугла Прошла конференция Google I/O, где гугл представил кучу обновлений!
📝Самое вкусное:
1. Google представил ускоренные модели для текста и кода, которые генерируют весь текст сразу, а не пошагово: Gemini Diffusion генерирует 1479 токенов в секунду.
2. Представили асинхронный агент для программирования Jules, который работает с GitHub и автономно выполняет множество функций.
3. Создали сервис Flow, который объединяет новую видеомодель Veo 3 и новую модель для создания изображений Imagen 4.
📎Остальные новшества и подробную информацию смотрим тут
Алиса в поиске Яндекс интегрировал Алису в поиск: генерация текста, видео и изображений в поисковой строке. Алиса анализирует источники и генерирует ответы с медиа. Вертикали сравнивают товары и услуги. Режим рассуждений углубляет контекст
📝 Написать запрос → Переключить в режим рассуждений → Использовать вертикали для сравнения
📎Проверяем в поисковике яндекса
Живая сталь 2 Первый бой роботов на COMPUTEX: Гуманоидные роботы сражались в боксерских перчатках в прямом эфире.
📝Спойлер: Tesla Optimus победил в первом роботизированном боксе.
📎Смотрим тут (Это ютуб, нужен VPN)
AI-2027: трекер предсказаний Трекер от энтузиастов отслеживает предсказания сценария AI-2027.
📝 Проект разбивает прогнозы на темы и оценивает их по статусам: сбылось, частично, не сбылось.
📎Следим тут
Microsoft MCP для Windows Microsoft внедрила MCP в Windows, позволяя ИИ-агентам управлять ОС. Совместимость с VS Code и Gemini SDK.
📝 Уже доступно в обновлении VS Code
📎 Подробнее тут
OpenAI покупает стартап Джони Айва за $6.4 млрд OpenAI приобрела LoveFrom — стартап бывшего дизайнера iPhone Джони Айва. Цель — создание нового ИИ-устройства.
📝 Это крупнейшее приобретение OpenAI
📎Подробнее тут
Карманный анализатор книг Гугловский NotebookLM теперь доступен на iOS и Android.
📝 Приложение работает как в вебе: поддерживает текст, видео, PDF и позволяет создавать подкасты на основе документов.
📎 Доступно в App Store и Play Market.
OpenAI: MCP-поддержка OpenAI теперь позволяет подключать удаленный MCP-сервер. Интеграция упрощает работу с инструментами через API.
📝 MCP-сервер описывается в кабинете OpenAI, не требуя промежуточного хостинга. Позволяет интегрировать сторонние сервисы напрямую.
📎 Подробнее тут
Microsoft Discovery: ИИ для научных исследований Microsoft Discovery ускоряет R&D через граф знаний и специализированных агентов. Интегрирован с Azure и NVIDIA.
📝 Сервис помогает формулировать гипотезы и моделировать эксперименты. Пример: охлаждающая жидкость для дата-центров найдена за 200 часов вместо месяцев.
📎 Подробнее тут