Компания OpenAI представила — революционную мультимодальную модель, способную обрабатывать текст, голос, изображение и видео в реальном времени. Буква «о» в названии означает «omni» — универсальность, и она полностью оправдана.
По данным OpenAI, задержка голосового ответа у модели составляет всего 232 миллисекунды — это сопоставимо с реакцией человека. Модель свободно меняет язык, интонацию и даже эмоции,…
OpenAI снова раздвигает границы возможностей ИИ, представив революционную мультимодальную модель, которая не просто «видит» — она понимает. Новая система под названием GPT-4o знаменует собой важный этап в развитии взаимодействия человека и машины. Позволяя ИИ обрабатывать текст, изображения и звук в реальном времени.
Мультимодальность в действии
GPT-4o способна одновременно работать с разными типами данных, анализируя не…