Компания OpenAI представила — революционную мультимодальную модель, способную обрабатывать текст, голос, изображение и видео в реальном времени. Буква «о» в названии означает «omni» — универсальность, и она полностью оправдана.
По данным OpenAI, задержка голосового ответа у модели составляет всего 232 миллисекунды — это сопоставимо с реакцией человека. Модель свободно меняет язык, интонацию и даже эмоции,…
