OpenAI представляет новый ChatGPT, который слушает, смотрит и разговаривает
Чат-боты, генераторы изображений и голосовые помощники постепенно объединяются в единую технологию с голосовым управлением.
По мере того, как Apple и Google превращают своих голосовых помощников в чат-ботов, OpenAI преобразует своего чат-бота в голосового ассистента.
В понедельник стартап по искусственному интеллекту из Сан-Франциско представил новую версию своего чат-бота ChatGPT, который может получать голосовые команды, изображения и видео и отвечать на них.
Компания заявила, что новое приложение, основанное на системе искусственного интеллекта под названием GPT-4o, манипулирует аудио, изображениями и видео значительно быстрее, чем предыдущая версия технологии. С понедельника приложение будет доступно бесплатно как для смартфонов, так и для настольных компьютеров.
“Мы смотрим в будущее взаимодействия между нами и машинами”, - сказала Мира Мурати, технический директор компании.
Новое приложение является частью более широких усилий по объединению разговорных чат-ботов, таких как ChatGPT, с голосовыми помощниками, такими как Google Assistant и Siri от Apple. В то время как Google объединяет своего чат-бота Gemini с Google Assistant, Apple готовит новую версию Siri, которая более удобна для общения.
OpenAI заявила, что будет постепенно делиться технологией с пользователями “в ближайшие недели”. Компания впервые предлагает ChatGPT в качестве настольного приложения.
Ранее компания предлагала аналогичные технологии в различных бесплатных и платных продуктах. Теперь она объединила их в единую систему, которая доступна во всех ее продуктах.
Во время мероприятия, которое транслировалось в Интернете, г-жа Мурати и ее коллеги продемонстрировали новое приложение, поскольку оно реагировало на голосовые команды в разговоре, использовало прямую видеотрансляцию для анализа математических задач, написанных на листе бумаги, и читало вслух шутливые истории, которые оно сочиняло на лету.
Новое приложение не может генерировать видео. Но оно может генерировать неподвижные изображения, представляющие собой кадры видео.
С дебютом ChatGPT в конце 2022 года OpenAI показала, что машины могут обрабатывать запросы в большей степени, чем люди. Отвечая на текстовые подсказки, он может отвечать на вопросы, писать курсовые работы и даже генерировать компьютерный код.
ChatGPT не руководствовался набором правил. Он научился своим навыкам, анализируя огромное количество текста, собранного со всего Интернета, включая статьи Википедии, книги и журналы чатов. Эксперты приветствовали эту технологию как возможную альтернативу поисковым системам, таким как Google, и голосовым помощникам, таким как Siri.
Новые версии технологии также извлекли уроки из звуков, изображений и видео. Исследователи называют это “мультимодальным искусственным интеллектом”. По сути, такие компании, как OpenAI, начали комбинировать чат-ботов с генераторами ИИ изображений, аудио и видео.
(В декабре New York Times подала в суд на OpenAI и ее партнера Microsoft, заявив о нарушении авторских прав на новостной контент, связанный с системами искусственного интеллекта.)
Поскольку компании объединяют чат-ботов с голосовыми помощниками, остается много препятствий. Поскольку чат-боты обучаются своим навыкам на основе данных из Интернета, они склонны к ошибкам. Иногда они полностью выдают информацию — явление, которое исследователи искусственного интеллекта называют “галлюцинацией”. Эти недостатки распространяются и на голосовых помощников.
Хотя чат-боты могут генерировать убедительные формулировки, они менее искусны в выполнении таких действий, как планирование встречи или бронирование билета на самолет. Но такие компании, как OpenAI, работают над тем, чтобы превратить их в “агентов искусственного интеллекта”, которые могут надежно справляться с подобными задачами.
Ранее OpenAI предлагала версию ChatGPT, которая могла принимать голосовые команды и отвечать голосом. Но это было лоскутное одеяло из трех различных технологий искусственного интеллекта: одна преобразовывала голос в текст, другая генерировала текстовый ответ, а третья преобразовывала этот текст в синтетический голос.
Новое приложение основано на единой технологии искусственного интеллекта - GPT—4o, - которая может принимать и генерировать текст, звуки и изображения. Это означает, что технология более эффективна, и компания может позволить себе предлагать ее пользователям бесплатно, сказала г-жа Мурати.
“Раньше у вас были все эти задержки, которые были результатом совместной работы трех моделей”, - сказала г-жа Мурати в интервью Times. “Вы хотите получить опыт, который есть у нас, где мы можем вести этот очень естественный диалог”.
Создаём передовых ботов на базе искусственного интеллекта.
Предлагаем услуги по разработке чат-ботов любой сложности с использованием самых современных технологий:
- Боты на основе GPT-4 и GPT-3 с возможностью дополнительного обучения
Интеграция моделей генерации изображений (Stable Diffusion, DALL-E, Midjourney) - Голосовые помощники с поддержкой речевого ввода и синтезом речи
Боты на Python с открытыми API для расширения функционала - Парсеры и сборщики данных из интернета
- Разработка custom нейронных сетей для решения уникальных задач
📋 Мои данные:
Telegram "Одинцов| Продажи | Боты | ИИ | CRM
Бесплатно консультирую по внедрению CRM, чат-ботов и созданию голосовых роботов с искусственным интеллектом. Пишите лично мне в Whatsapp или в Telegram @odintsov