
Компания OpenAI представила — революционную мультимодальную модель, способную обрабатывать текст, голос, изображение и видео в реальном времени. Буква «о» в названии означает «omni» — универсальность, и она полностью оправдана.
По данным OpenAI, задержка голосового ответа у модели составляет всего 232 миллисекунды — это сопоставимо с реакцией человека. Модель свободно меняет язык, интонацию и даже эмоции, делая разговор максимально естественным.
Главное отличие новой GPT-4o от прежних версий — нативная мультимодальность. В отличие от «склеенных» модулей, здесь всё — единая обученная система. Модель может одновременно анализировать, что вы говорите, как вы это говорите и что у вас за спиной в камере.
По информации The Verge, GPT-4o может вести живой диалог, интерпретировать изображения и выдавать эмоциональные голосовые ответы. CNN отмечает, что базовый доступ к GPT-4o предоставляется бесплатно в ChatGPT, а расширенные функции доступны подписчикам.
На фоне стремительного развития конкурентов вроде Google Gemini и Meta LLaMA 3, модель OpenAI выделяется своей реалистичностью и плавностью взаимодействия. Она пригодится в образовании, техподдержке, автоматизации процессов, создании контента.
Это шаг в сторону полноценного ИИ-компаньона.