OpenAI представила новую ИИ-модель GPT-4o
Американская компания OpenAI представила мультимодальную модель генеративного искусственного интеллекта GPT-4o, которая может анализировать звук, изображение и текст в режиме реального времени. В компании собираются внедрить ее в свои продукты в течение ближайших недель.
Символ «о» в названии модели GPT-4o означает «omni» и переводится как «всесторонний», в компании утверждают, что это указывает на мультимодальность GPT-4o. У ИИ-модели интеллект уровня GPT-4 и улучшенные возможности по работе с изображениями и текстом, а также с аудио и голосом. У GPT-4o есть контекстное окно из 128 тыс. токенов.
В OpenAI считают, что GPT-4o значительно улучшит работу чат-бота ChatGPT. В последнем уже есть голосовой режим, однако новая ИИ-модель будет направлена на большее взаимодействие с чат-ботом именно как с помощником, например его можно будет прервать во время ответа. Будут улавливаться эмоции в голосе пользователя, а сам ИИ сможет реагировать на действия пользователя в режиме реального времени. Улучшатся и визуальные возможности ChatGPT, а в дальнейшем чат-бот сможет смотреть спортивную игру в прямом эфире и объяснять правила.
GPT-4o доступна как в платной, так и в бесплатной версии ChatGPT, однако для платных подписчиков ChatGPT Plus и Team ограничение на количество сообщений будет в пять раз выше. При превышении лимита у бесплатных пользователей произойдет переключение на GPT-3.5, а у платных — на GPT-4.
Бесплатные пользователи теперь также смогут искать информацию в интернете, создавать графики и анализировать данные, работать с пользовательскими файлами и изображениями, а также запоминать прежние взаимодействия с пользователем. Появится доступ к GPT Store.
О том, почему стремление к максимально быстрой разработке ИИ-инструментов вредит их качеству,— в материале «Быстрее, выше и хуже».