March 21, 2025

Свежие релизы и обновления ИИ инструментов

Новый API для OCR (оптического распознавания текста) – революция в обработке документов

OCR (Optical Character Recognition – оптическое распознавание символов) – технология, позволяющая преобразовывать текст с изображений и PDF-файлов в цифровой формат. Новый API от Mistral демонстрирует беспрецедентное качество распознавания и превосходит существующие решения (GPT-4, Gemini 2.0 Flash и другие).

Основные преимущества нового OCR API

  • Высокая точность – распознаёт даже сложные, размытые и рукописные тексты.
  • Многоязычность – поддерживает арабский, китайский, европейские языки и другие.
  • Поддержка сложных документов – корректно интерпретирует таблицы, графики и многостраничные файлы.
  • Работает с изображениями низкого качества – может анализировать фотографии документов с телефона.
  • Массовая обработка файлов – API позволяет обрабатывать PDF-пакеты за раз.

Сравнение с существующими OCR

Чтобы подтвердить эффективность нового API, были проведены тесты на распознавание текста в сложных условиях.

Как можно использовать новый OCR API?

🔹 Обработка юридических и бухгалтерских документов
→ Автоматический анализ и перенос данных в цифровую систему.

🔹 Распознавание рукописного текста
→ Ввод текстов на бумаге в компьютер без ручного набора.

🔹 Обработка многоязычных документов
→ Распознавание текста на более чем 20 языках, включая сложные системы письма.

🔹 Быстрое преобразование PDF в редактируемый формат
→ Ускоренная работа с контрактами, медицинскими картами, архивными документами.

пример обработки фото

Где можно протестировать новый OCR API?

Тестировать API можно через Le Chat – это веб-интерфейс, предоставляющий доступ к технологии.

Google AI Studio и мультимодальные возможности Gemini 2.0 Flash

Google AI Studio – это платформа для взаимодействия с ИИ, которая предлагает новые возможности мультимодальной генерации и редактирования изображений. Недавнее обновление платформы добавило поддержку модели Gemini 2.0 Flash, что значительно улучшило процесс работы с визуальным контентом.

Основные функции и нововведения

Ранее создание и редактирование изображений требовало работы в отдельных специализированных сервисах. Теперь Google AI Studio позволяет выполнять все этапы – от генерации до редактирования – в одном интерфейсе, используя текстовые команды, прямо как в чате GPT.

Функции, которые теперь доступны:

  • Генерация изображений по текстовому описанию.
  • Редактирование существующих изображений через текстовые запросы.
  • Изменение стиля изображения (например, добавление гиперреалистичных эффектов).
  • Работа с загруженными изображениями, включая модификацию черт лица и выражений.
  • Текстовое редактирование элементов на изображении (например, изменение надписей).
можно менять только часть изображения, не трогая остальную картинку.

Какие есть возможности для генерации

🔹 Добавление стилей и улучшение качества изображения

Система позволяет изменять стиль изображения, делая его, например, гиперреалистичным или киношным.

🔹 Работа с загруженными изображениями

Ранее редактирование существующих изображений требовало специальных графических редакторов. Теперь пользователь может загружать свои фото и редактировать их с помощью текстовых команд.

🔹 Редактирование текстовых элементов на изображении

Возможность изменять надписи на изображениях.

Что делает Google AI Studio удобным?

✔️ Полная интеграция текстового и визуального взаимодействия – все редактирование выполняется без сторонних инструментов.
✔️ Работа в одном интерфейсе – не требуется скачивать изображения и загружать их в другие редакторы.
✔️ Бесплатный доступ (с ограничением по количеству запросов) – пользователи могут тестировать возможности без API-ключа.
✔️ Интуитивный процесс редактирования – команды обрабатываются в текстовом формате, как в чате.

Новый языковой модельный вариант Gemma 3 от Google

Google представил новую языковую модель Gemma, заявляя, что это лучший одиночный (single) языковой AI-модельный вариант, который можно запустить на GPU или TPU. Данный релиз представляет собой важный шаг в развитии небольших, но мощных языковых моделей, которые можно запускать даже на относительно доступном оборудовании.

Сравнение с другими моделями

Google продемонстрировал ELO-рейтинг модели (аналог рейтинга шахматистов, используемого в соревнованиях среди языковых моделей).

Основные характеристики Gemma 3

Размер модели: 27 миллиардов параметров (B)
Оптимизация: для работы на NVIDIA GPU и TPU
Производительность:

  • Лучше, чем LLaMA 3 Mini
  • Чуть уступает DeepSeek R1

Запуск на локальных машинах:

  • Требуется 64 ГБ ОЗУ, но с ограничением размера контекста
  • Полный контекст (~8,000 токенов) может быть использован при 64 ГБ ОЗУ

Энергоэффективность: модель меньше по сравнению с DeepSeek R1 (который имеет 671 млрд параметров), но сохраняет хорошее качество генерации текста

Потенциальные сценарии использования

Gamma-Free может использоваться в различных сферах, особенно там, где важна производительность при ограниченных ресурсах.

  1. Локальные чат-боты – запустить персональный LLM без облачных сервисов.
  2. Автоматизация бизнеса – анализ документов, составление отчетов, чат-ассистенты.
  3. Кодинг и программирование – генерация кода, анализ багов.
  4. Исследования в области AI – работа с моделями без необходимости использовать огромные серверные мощности.

Обновление ChatGPT: Интеграция с IDE (кодинг внутри редактора кода)

OpenAI добавила новую возможность: прямую работу с кодом в IDE (среде разработки) без необходимости копирования и вставки фрагментов кода. Теперь пользователи могут взаимодействовать с ChatGPT прямо внутри своего редактора, что значительно упрощает процесс программирования.

Основные нововведения

ChatGPT теперь можно интегрировать с IDE, такими как VS Code.
Взаимодействие с кодом в реальном времени:

  • ChatGPT может читать код из файла.
  • Вносить изменения в код.
  • Дописывать недостающие фрагменты кода без копирования и вставки.

Больше не нужен GitHub Copilot – базовые задачи можно решать через ChatGPT.

изменение цветов планет используя только код

Как это работает?

Теперь при использовании десктопного приложения ChatGPT разработчики могут:

  1. Открыть кодовый файл в IDE (например, в VS Code).
  2. Подключить ChatGPT к файлу – он сможет анализировать его содержимое.
  3. Написать команду или запрос в ChatGPT (например, «Оптимизируй этот код»).
  4. Получить исправленный код прямо в IDE без необходимости копирования.

Пример работы:

  • Программист открывает файл Python с функцией, требующей оптимизации.
  • В ChatGPT он вводит команду: «Оптимизируй этот код для повышения скорости».
  • ChatGPT редактирует код внутри IDE, предлагая улучшенный вариант.

Если дайджест был полезен, ставь лайк👍