OpenAI представляет новый ChatGPT, который слушает, смотрит и разговаривает

Чат-боты, генераторы изображений и голосовые помощники постепенно объединяются в единую технологию с голосовым управлением.

По мере того, как Apple и Google превращают своих голосовых помощников в чат-ботов, OpenAI преобразует своего чат-бота в голосового ассистента.

В понедельник стартап по искусственному интеллекту из Сан-Франциско представил новую версию своего чат-бота ChatGPT, который может получать голосовые команды, изображения и видео и отвечать на них.

Компания заявила, что новое приложение, основанное на системе искусственного интеллекта под названием GPT-4o, манипулирует аудио, изображениями и видео значительно быстрее, чем предыдущая версия технологии. С понедельника приложение будет доступно бесплатно как для смартфонов, так и для настольных компьютеров.

“Мы смотрим в будущее взаимодействия между нами и машинами”, - сказала Мира Мурати, технический директор компании.

Новое приложение является частью более широких усилий по объединению разговорных чат-ботов, таких как ChatGPT, с голосовыми помощниками, такими как Google Assistant и Siri от Apple. В то время как Google объединяет своего чат-бота Gemini с Google Assistant, Apple готовит новую версию Siri, которая более удобна для общения.

OpenAI заявила, что будет постепенно делиться технологией с пользователями “в ближайшие недели”. Компания впервые предлагает ChatGPT в качестве настольного приложения.

Ранее компания предлагала аналогичные технологии в различных бесплатных и платных продуктах. Теперь она объединила их в единую систему, которая доступна во всех ее продуктах.

Во время мероприятия, которое транслировалось в Интернете, г-жа Мурати и ее коллеги продемонстрировали новое приложение, поскольку оно реагировало на голосовые команды в разговоре, использовало прямую видеотрансляцию для анализа математических задач, написанных на листе бумаги, и читало вслух шутливые истории, которые оно сочиняло на лету.

Новое приложение не может генерировать видео. Но оно может генерировать неподвижные изображения, представляющие собой кадры видео.

С дебютом ChatGPT в конце 2022 года OpenAI показала, что машины могут обрабатывать запросы в большей степени, чем люди. Отвечая на текстовые подсказки, он может отвечать на вопросы, писать курсовые работы и даже генерировать компьютерный код.

ChatGPT не руководствовался набором правил. Он научился своим навыкам, анализируя огромное количество текста, собранного со всего Интернета, включая статьи Википедии, книги и журналы чатов. Эксперты приветствовали эту технологию как возможную альтернативу поисковым системам, таким как Google, и голосовым помощникам, таким как Siri.

Новые версии технологии также извлекли уроки из звуков, изображений и видео. Исследователи называют это “мультимодальным искусственным интеллектом”. По сути, такие компании, как OpenAI, начали комбинировать чат-ботов с генераторами ИИ изображений, аудио и видео.

(В декабре New York Times подала в суд на OpenAI и ее партнера Microsoft, заявив о нарушении авторских прав на новостной контент, связанный с системами искусственного интеллекта.)

Поскольку компании объединяют чат-ботов с голосовыми помощниками, остается много препятствий. Поскольку чат-боты обучаются своим навыкам на основе данных из Интернета, они склонны к ошибкам. Иногда они полностью выдают информацию — явление, которое исследователи искусственного интеллекта называют “галлюцинацией”. Эти недостатки распространяются и на голосовых помощников.

Хотя чат-боты могут генерировать убедительные формулировки, они менее искусны в выполнении таких действий, как планирование встречи или бронирование билета на самолет. Но такие компании, как OpenAI, работают над тем, чтобы превратить их в “агентов искусственного интеллекта”, которые могут надежно справляться с подобными задачами.

Ранее OpenAI предлагала версию ChatGPT, которая могла принимать голосовые команды и отвечать голосом. Но это было лоскутное одеяло из трех различных технологий искусственного интеллекта: одна преобразовывала голос в текст, другая генерировала текстовый ответ, а третья преобразовывала этот текст в синтетический голос.

Новое приложение основано на единой технологии искусственного интеллекта - GPT—4o, - которая может принимать и генерировать текст, звуки и изображения. Это означает, что технология более эффективна, и компания может позволить себе предлагать ее пользователям бесплатно, сказала г-жа Мурати.

“Раньше у вас были все эти задержки, которые были результатом совместной работы трех моделей”, - сказала г-жа Мурати в интервью Times. “Вы хотите получить опыт, который есть у нас, где мы можем вести этот очень естественный диалог”.

Создаём передовых ботов на базе искусственного интеллекта.

Предлагаем услуги по разработке чат-ботов любой сложности с использованием самых современных технологий:

Боты на основе GPT-4 и GPT-3 с возможностью дополнительного обучения
Интеграция моделей генерации изображений (Stable Diffusion, DALL-E, Midjourney)
Голосовые помощники с поддержкой речевого ввода и синтезом речи
Боты на Python с открытыми API для расширения функционала
Парсеры и сборщики данных из интернета
Разработка custom нейронных сетей для решения уникальных задач

📋 Мои данные:

Telegram "Одинцов| Продажи | Боты | ИИ | CRM

Бесплатно консультирую по внедрению CRM, чат-ботов и созданию голосовых роботов с искусственным интеллектом. Пишите лично мне в Whatsapp или в Telegram @odintsov