Понедельничный дайджест №9

Что интересного произошло в мире нейронок за прошедшую неделю? (11.08.2025)

→ Перейти к буквам
→ Перейти к картинкам
→ Перейти к звуку
→ Перейти к видео
→ Перейти к разному
← Перейти к прошлым дайджестам

🟢 Буквы

Google добавил AI Mode в поиск Google в браузер добавили AI Mode с новыми функциями, включая Canvas и Search Live. Теперь можно прямо внутри поиска создавать планы, списки дел, искать по фото и видео — пишете запрос и получаете структурированные набор карточек.
📝 Пока доступно только жителям штатов, но обещают раскатить на всех
📎 Ждём на Google.com
Обновлённая модель от Anthropic Вышла Claude Opus 4.1, она предлагает улучшенную производительность в кодинге и комплексных рефакторах.
📝 Модель доступна в подписке и API.
📎 Подробнее тут
OpenAI выпустила новые опен-сорсные модели! OpenAI выпустила открытые модели GPT OSS с 20B и 120B параметров. GPT OSS — это открытые модели с поддержкой 3 типов длины рассуждений: low, medium, high. Старшая модель обгоняет o4-mini, младшая догоняет o3-mini (На её запуск нужно 16 ГБ видеопамяти)
📝 Модели поддерживают вызов инструментов (поиск в интернете, вызов Python-код и т.д.). Модели шустрые, но не понимают картинки и звук, только текст.
📎 Подробнее тут
Gemini: собственная сказка в один клик Gemini теперь умеет создавать книги с картинками и аудио сопровождением.
📝 1. Вводим текстовый запрос «create storybook about {тема}»- 2. По желанию добавить изображения, стиль которых нужно скопировать - 3. Смотреть, слушать и делиться ссылкой на сказку
📎 Пробуем в браузере с VPN'ом тут
Jules: автономный ИИ-агент от Google Google выпустили собственного автономного ИИ-агента для кодинга — даёте задание и идёте пить кофе в кафе. Jules работает в виртуальной машине Google Cloud и выполняет до 3 задач одновременно — сама подключается к GitHub, запускает тесты, исправляет баги и в конце даст отчёт о выполненной работе. Бесплатно - 15 задач в день.
📝 1. Регистрируемся в Jules - 2. Даём задачу - 3. Увольняем (Или нанием) программистов
📎Подробнее тут
Microsoft Edge: Copilot Mode Microsoft в браузер Edge добавил Copilot Mode с анализом вкладок и голосовым управлением. Этот режим анализирует открытые вкладки, сравнивает данные и делает отчеты.
📝 Теперь когда открываешь новую вкладку – появляется поле для промпта, а Copilot предлагает сравнить и срезюмировать всё, что можно
📎 Проверить можно в браузере Edge
ТА САМАЯ НОВОСТЬ!
ChatGPT-5 - новая модель от OpenAI с улучшенными возможностями. Все остальные модели отключили (Одну потом вернули)
📝 GPT-5 предлагает делает упор на кодинг и мед.вопросы. Модель автоматически подбирает подмодель в зависимости от сложности запроса, совершает меньше ошибок и охотнее их признаёт, однако данные знает только до октября 2024. У модели появились персоны - она сможет отвечать с разным характером и более креативно. Как всегда раскатывают неспеша и с косяками, поэтому модель будет умнеть
📎 Прочитать подробнее можно из каждого утюга, а тут можно узнать как писать промпты для новой модели

🟡 Картинки

Grok Imagine: новый инструмент для создания изображений и видео Новый генератор от Илона Маска позволяет создавать изображения и видео по текстовому запросу с выбором шаблонов и аудиодорожек. Всего есть 4 шаблона: normal, fun, spicy, custom, а виде длительностью 6 секунд с музыкой и фоновыми звуками. Уже доступно для подписчиков SuperGrok и X Premium+.
📝 1. Регистрируемся в Grok Imagine - 2. Покупаем подписку - 3. Вводим текстовый или голосовой запрос - 4. Выбираем шаблон и аудиодорожку - 5. Получаем готовое видео/изображение
📎 Смотрим тут
Qwen Image: новый генератор изображений от Alibaba Alibaba (Которым принадлежат маркетплейсы AliExpress и Alibaba) выпустили свою новую опенсорсную модель для создания изображения.
📝 Модель не просто генерирует изображение, но и хорошо держит текст на них, а ещё способна редактировать изображения по текстовому запросу — без ограничений и лимитов, (Если запускать на собственном компьютере (сервере)). С Flux пока не может тягаться.
📎 Подробнее тут
Figma Make: прототип в два клика Figma выпустила свой AI-инструмент для генерации прототипов сайтов и приложений. Он позволяет создавать прототипы по текстовому запросу.
📝 Модель сама предлагает улучшения по ходу работы, можно сразу посмотреть, как будет выглядеть на разных устройствах, полученный код можно скачать. Однако, бесплатно сохранять можно только черновики, есть лимит на генерацию для бесплатных пользователей и работает пока в целом не очень)
📎 Подробнее тут
Genie 3: твой новый мир Genie 3 позволяет создавать собственные интерактивные миры. Такие модель это по сути нейронные игровые движки, позволяющие двигаться и взаимодействовать с миром, который полностью создала нейросеть.
📝 Модель поддерживает консистентность на длинных отрезках времени — т.е. если вы видели перед собой забор, а потом повернётесь, то забор не исчезнет! (Меньше года назад это было проблемой: ищите нейро-майнкрафт)
📎 Подробнее читаем тут

🔵 Звук

Твой собственный карманный музыкальный продюссер Producer.ai - это агент для генерации музыки по текстовому запросу, преемник Riffusion (Riffusion — модель, которая создаёт музыку как изображение).
Producer.ai позволяет создавать музыку по текстовому запросу. Инструмент использует модель FUZZ-2.0 для генерации музыки. Доступен только по инвайтам — нужно обратиться к уже существующим пользователям или бывшим пользователям Riffusion
📝 1. Получить инвайт на Producer.ai - 2. Ввести текстовый запрос - 3. Получить сгенерированную музыку
📎 Пробуем тут
Eleven Music: генератор музыки от ElevenLabs Eleven Music — инструмент для генерации музыки от монополистов в синтезе голоса. Он позволяет генерировать музыку на разных языках и редактировать звук и текст. Инструмент поддерживает интеграцию с приложениями.
📝 1. Регистрируемся в ElevenLabs - 2. Вводим текстовый запрос - 3. Получаем сгенерированную музыку - 4. По желании редактируем звук и текст
📎 Подробнее тут
Minimax Speech 2.5: обновлённый генератор речи
Minimax выпустили Speech 2.5 — новый генератор речи, у которого более высокая выразительность на множестве языков, реалистичнее голос и поддержка 40 языков, в отличии от своей предыдущей версии.
📝 Плюшки: улучшенные интонации, паузы и дыхание; клонирование голоса по 10-секундному образцу; ручная настройка тона и тембра.
📎Пробуем тут
OpenAI скрытно навалил бита
Оказывается, прямо в ChatGPT встроен битбокс! Если быть точнее, то простая драм-машина прямо в чате: ставим BPM, загружаем бочку/снейр/хэты, расставляем шаги (16/32), редактируем в реальном времени.
📝 1. Заходим через браузере (в приложении не показывается - 2. Вводим промпт, который начинается с «use beatbot», например: use beatbot to make a sick beat to celebrate gpt-5 - 3. Наслаждаемся
📎Пробуем в ChatGPT

🟣 Видео

Google о JSON в промптах для Veo3 Недавно по интернету пронеслась волна крышесносных видео из Veo3, которые использовали JSON-разметку в промптах. Google обратил на это внимание и рекомендует избегать использования JSON в промптах для Veo3.
📝 Google считает, что JSON в промптах для Veo3 неэффективен, так как он жрёт токены и теряет предлоги. Рекомендуется использовать обычные промпты, но точно описывать обстановку, объект, действие, освещение, тип съемки, угол камеры и звук
📎 Ссылки нетю ):
Runway Aleph: новая модель для редактирования видео Runway представила модель Aleph для редактирования видео. Она позволяет изменять ракурсы, освещение, анимацию и стиль, расширять видео, удалять и перерисовывать объекты. Доступна для платных подписчиков.
📝 1. Загружаем видео - 2. Вводим текстовый запрос - 3. Применяем изменения - 4. Получаем отредактированное видео
📎 Пробуем тут
Делаем видео в Perplexity Perplexity научился генерировать видео по текстовому запросу, используя референсы из интернета.
📝 1. Вводим текстовый запрос с фразой «Сгенерируй видео» - 2. Сервис сам найдет референсы, на основе них составит промпт - 3. Получаем готовое видео
📎 https://plati.market/itm/5034113?ai=1361021

🟠 Разное

Anthropic разработала векторы персоны Anthropic создала систему для управления поведением ИИ через векторы персоны, позволяющую регулировать эмоциональные реакции модели.
📝 Векторы персоны позволяют управлять поведением ИИ, включая злость, лесть, склонность к выдумыванию. Система работает на разных языках и может использоваться для мониторинга, фильтрации контента и обучения моделей.
📎Подробнее читаем тут
Исследование восприятия объектов LLM и MLLM Вышло исследование, которое сравнивает восприятие объектов людьми, большими языковыми моделями и мультимодальными языковыми моделями.
📝 Вкратце: исследование показало, что LLM и MLLM воспринимают объекты по-разному. LLM лучше улавливают семантические различия, а MLLM - визуальные. Модели используют меньше измерений для принятия решений, чем люди.
📎 Не вкратце тут: тык
Delta Airlines внедрила ИИ Американская авиакомпания, одна из компаний-основателей авиационного альянса пассажирских перевозок SkyTeam, использует ИИ для динамического ценообразования, учитывая множество факторов.
📝 ИИ в Delta Airlines анализирует стоимость топлива, политическую обстановку, спрос, сезонные и погодные условия для динамического ценообразования.
📎 Подробнее смотрим на Ютубе
AI: Save Our Souls - иммерсивный мюзикл На фестивале Edinburgh Fringe с 11 по 16 августа 2025 пройдёт иммерсивный мюзикл AI: Save Our Souls, который создан с помощью ИИ.
📝 Мюзикл объединяет музыку разных жанров и эмоциональный сюжет о влиянии ИИ на мир. Не смотря на то, что Эдинбург далеко — ты можешь поучаствовать в шоу прямо сейчас!
📎Ответьте на несколько вопросов и твои ответы станут частью шоу — тык
Бесплатный курс по работе с промптами от Anthropic Компания выложила 17 видео по работе с промптами, построению агентов и кодингу на их модели Claude.
📝 Смотрим видео и улучшаем свой скилл промптинга
📎 Ищем видео на Ютубе