loader
banner
Інтерактивна цифрова панель із великим екраном, що відображає документ Gmail, оточений мережею взаємопов’язаних вікон із текстами та даними. Ілюстрація демонструє інтеграцію ШІ Gemini для розумної обробки контенту та підвищення продуктивності.

Компания OpenAI представила — революционную мультимодальную модель, способную обрабатывать текст, голос, изображение и видео в реальном времени. Буква «о» в названии означает «omni» — универсальность, и она полностью оправдана.

По данным OpenAI, задержка голосового ответа у модели составляет всего 232 миллисекунды — это сопоставимо с реакцией человека. Модель свободно меняет язык, интонацию и даже эмоции, делая разговор максимально естественным.

Главное отличие новой GPT-4o от прежних версий — нативная мультимодальность. В отличие от «склеенных» модулей, здесь всё — единая обученная система. Модель может одновременно анализировать, что вы говорите, как вы это говорите и что у вас за спиной в камере.

По информации The Verge, GPT-4o может вести живой диалог, интерпретировать изображения и выдавать эмоциональные голосовые ответы. CNN отмечает, что базовый доступ к GPT-4o предоставляется бесплатно в ChatGPT, а расширенные функции доступны подписчикам.

На фоне стремительного развития конкурентов вроде Google Gemini и Meta LLaMA 3, модель OpenAI выделяется своей реалистичностью и плавностью взаимодействия. Она пригодится в образовании, техподдержке, автоматизации процессов, создании контента.

Это шаг в сторону полноценного ИИ-компаньона.