Свежие релизы и обновления ИИ инструментов
Новый API для OCR (оптического распознавания текста) – революция в обработке документов
OCR (Optical Character Recognition – оптическое распознавание символов) – технология, позволяющая преобразовывать текст с изображений и PDF-файлов в цифровой формат. Новый API от Mistral демонстрирует беспрецедентное качество распознавания и превосходит существующие решения (GPT-4, Gemini 2.0 Flash и другие).
Основные преимущества нового OCR API
- Высокая точность – распознаёт даже сложные, размытые и рукописные тексты.
- Многоязычность – поддерживает арабский, китайский, европейские языки и другие.
- Поддержка сложных документов – корректно интерпретирует таблицы, графики и многостраничные файлы.
- Работает с изображениями низкого качества – может анализировать фотографии документов с телефона.
- Массовая обработка файлов – API позволяет обрабатывать PDF-пакеты за раз.
Сравнение с существующими OCR
Чтобы подтвердить эффективность нового API, были проведены тесты на распознавание текста в сложных условиях.
Как можно использовать новый OCR API?
🔹 Обработка юридических и бухгалтерских документов
→ Автоматический анализ и перенос данных в цифровую систему.
🔹 Распознавание рукописного текста
→ Ввод текстов на бумаге в компьютер без ручного набора.
🔹 Обработка многоязычных документов
→ Распознавание текста на более чем 20 языках, включая сложные системы письма.
🔹 Быстрое преобразование PDF в редактируемый формат
→ Ускоренная работа с контрактами, медицинскими картами, архивными документами.
Где можно протестировать новый OCR API?
Тестировать API можно через Le Chat – это веб-интерфейс, предоставляющий доступ к технологии.
Google AI Studio и мультимодальные возможности Gemini 2.0 Flash
Google AI Studio – это платформа для взаимодействия с ИИ, которая предлагает новые возможности мультимодальной генерации и редактирования изображений. Недавнее обновление платформы добавило поддержку модели Gemini 2.0 Flash, что значительно улучшило процесс работы с визуальным контентом.
Основные функции и нововведения
Ранее создание и редактирование изображений требовало работы в отдельных специализированных сервисах. Теперь Google AI Studio позволяет выполнять все этапы – от генерации до редактирования – в одном интерфейсе, используя текстовые команды, прямо как в чате GPT.
Функции, которые теперь доступны:
- Генерация изображений по текстовому описанию.
- Редактирование существующих изображений через текстовые запросы.
- Изменение стиля изображения (например, добавление гиперреалистичных эффектов).
- Работа с загруженными изображениями, включая модификацию черт лица и выражений.
- Текстовое редактирование элементов на изображении (например, изменение надписей).
Какие есть возможности для генерации
🔹 Добавление стилей и улучшение качества изображения
Система позволяет изменять стиль изображения, делая его, например, гиперреалистичным или киношным.
🔹 Работа с загруженными изображениями
Ранее редактирование существующих изображений требовало специальных графических редакторов. Теперь пользователь может загружать свои фото и редактировать их с помощью текстовых команд.
🔹 Редактирование текстовых элементов на изображении
Возможность изменять надписи на изображениях.
Что делает Google AI Studio удобным?
✔️ Полная интеграция текстового и визуального взаимодействия – все редактирование выполняется без сторонних инструментов.
✔️ Работа в одном интерфейсе – не требуется скачивать изображения и загружать их в другие редакторы.
✔️ Бесплатный доступ (с ограничением по количеству запросов) – пользователи могут тестировать возможности без API-ключа.
✔️ Интуитивный процесс редактирования – команды обрабатываются в текстовом формате, как в чате.
Новый языковой модельный вариант Gemma 3 от Google
Google представил новую языковую модель Gemma, заявляя, что это лучший одиночный (single) языковой AI-модельный вариант, который можно запустить на GPU или TPU. Данный релиз представляет собой важный шаг в развитии небольших, но мощных языковых моделей, которые можно запускать даже на относительно доступном оборудовании.
Сравнение с другими моделями
Google продемонстрировал ELO-рейтинг модели (аналог рейтинга шахматистов, используемого в соревнованиях среди языковых моделей).
Основные характеристики Gemma 3
✅ Размер модели: 27 миллиардов параметров (B)
✅ Оптимизация: для работы на NVIDIA GPU и TPU
✅ Производительность:
✅ Запуск на локальных машинах:
- Требуется 64 ГБ ОЗУ, но с ограничением размера контекста
- Полный контекст (~8,000 токенов) может быть использован при 64 ГБ ОЗУ
✅ Энергоэффективность: модель меньше по сравнению с DeepSeek R1 (который имеет 671 млрд параметров), но сохраняет хорошее качество генерации текста
Потенциальные сценарии использования
Gamma-Free может использоваться в различных сферах, особенно там, где важна производительность при ограниченных ресурсах.
- Локальные чат-боты – запустить персональный LLM без облачных сервисов.
- Автоматизация бизнеса – анализ документов, составление отчетов, чат-ассистенты.
- Кодинг и программирование – генерация кода, анализ багов.
- Исследования в области AI – работа с моделями без необходимости использовать огромные серверные мощности.
Обновление ChatGPT: Интеграция с IDE (кодинг внутри редактора кода)
OpenAI добавила новую возможность: прямую работу с кодом в IDE (среде разработки) без необходимости копирования и вставки фрагментов кода. Теперь пользователи могут взаимодействовать с ChatGPT прямо внутри своего редактора, что значительно упрощает процесс программирования.
Основные нововведения
✅ ChatGPT теперь можно интегрировать с IDE, такими как VS Code.
✅ Взаимодействие с кодом в реальном времени:
- ChatGPT может читать код из файла.
- Вносить изменения в код.
- Дописывать недостающие фрагменты кода без копирования и вставки.
✅ Больше не нужен GitHub Copilot – базовые задачи можно решать через ChatGPT.
Как это работает?
Теперь при использовании десктопного приложения ChatGPT разработчики могут:
- Открыть кодовый файл в IDE (например, в VS Code).
- Подключить ChatGPT к файлу – он сможет анализировать его содержимое.
- Написать команду или запрос в ChatGPT (например, «Оптимизируй этот код»).
- Получить исправленный код прямо в IDE без необходимости копирования.
- Программист открывает файл Python с функцией, требующей оптимизации.
- В ChatGPT он вводит команду: «Оптимизируй этот код для повышения скорости».
- ChatGPT редактирует код внутри IDE, предлагая улучшенный вариант.