GPT-4o - объединяет голос, видео и мгновенные ответы.

Компания OpenAI представила — революционную мультимодальную модель, способную обрабатывать текст, голос, изображение и видео в реальном времени. Буква «о» в названии означает «omni» — универсальность, и она полностью оправдана.

По данным OpenAI, задержка голосового ответа у модели составляет всего 232 миллисекунды — это сопоставимо с реакцией человека. Модель свободно меняет язык, интонацию и даже эмоции, делая разговор максимально естественным.

Главное отличие новой GPT-4o от прежних версий — нативная мультимодальность. В отличие от «склеенных» модулей, здесь всё — единая обученная система. Модель может одновременно анализировать, что вы говорите, как вы это говорите и что у вас за спиной в камере.

По информации The Verge, GPT-4o может вести живой диалог, интерпретировать изображения и выдавать эмоциональные голосовые ответы. CNN отмечает, что базовый доступ к GPT-4o предоставляется бесплатно в ChatGPT, а расширенные функции доступны подписчикам.

На фоне стремительного развития конкурентов вроде Google Gemini и Meta LLaMA 3, модель OpenAI выделяется своей реалистичностью и плавностью взаимодействия. Она пригодится в образовании, техподдержке, автоматизации процессов, создании контента.

Это шаг в сторону полноценного ИИ-компаньона.

GPT-4o: рывок в будущее — OpenAI представила ИИ, способный думать, слышать и видеть одновременно

Yurii

You May Also Like

ИИ от DeepMind приближается к уровню врача: новый скачок в медицинской диагностике

Red Hat представляет Lightspeed — ИИ-инструменты для умного администрирования систем