OpenAI запустила три новых голосовых модели, которые значительно упрощают внедрение голосовых агентов — GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Эти решения помогают отделить процессы размышлений, перевода и транскрипции, что, в свою очередь, облегчает разработку и управление голосовым взаимодействием для бизнеса.
Что нового в голосовых моделях
Модель GPT-Realtime-2, по словам OpenAI, является первой с интеллектом класса GPT-5 и может элегантно обрабатывать сложные запросы, сохраняя естественность общения. Вторая модель, GPT-Realtime-Translate, поддерживает более 70 языков, переводя на 13 из них в реальном времени. Третья модель, GPT-Realtime-Whisper, отвечает за трансформацию речи в текст.
Одна из ключевых особенностей заключается в том, что теперь каждая функция может работать независимо от других. Это позволяет предприятиям распределять задачи между специализированными моделями, что повышает общую эффективность системы.
Рынок голосовых технологий
Появление этих моделей — ответ на растущий интерес к голосовым агентам. Опрос, проведённый компанией PwC, показал, что более 60% людей уже привыкли к взаимодействию с AI-агентами. Кроме того, исследование анализирует, что 55% потребителей готовы использовать голосовые технологии для взаимодействия с брендами.
Компания Mistral с её моделями Voxtral также предлагает аналогичные решения, однако OpenAI выделяется благодаря продвинутым технологиям обработки. Чтобы оставаться конкурентоспособным, предприятиям следует обратить внимание не только на качество моделей, но и на архитектуру работы с голосовыми задачами.
Практические выгоды для разработчиков
Для разработчиков это значит, что новые возможности упрощают интеграцию голосовых решений в продукты. Возможность назначения конкретных задач специализированным моделям позволяет избежать перегрузок и улучшить ответные реакции на запросы пользователей.
Сейчас важнее всего — оценить возможность своей технологической архитектуры для эффективного маршрутизации голосовых задач, что может стать решающим фактором в конкуренции на рынке голосовых технологий.
Следующий шаг для OpenAI — активное расширение использования своих моделей в коммерческих решениях и укрепление позиций на растущих рынках голосовых технологий.