Nvidia представила нейросеть с генерацией видео по текстовому описанию
Американская компания Nvidia на конференции IEEE по компьютерному зрению и распознаванию образов представила новую версию нейросети, генерирующей видео по текстовому описанию. Как заявляют разработчики, обучение идет очень быстро даже по сравнению с предыдущим месяцем.
Среди примеров, которые показала Nvidia, были картинки по запросам «снежный человек в снежную бурю», «одетая в костюм лиса, танцующая в парке», «одинокий путешественник в туманном лесу на рассвете» и другие. Видео создается в разрешении либо 512x1024, либо 1280x2048 и состоит из 113 кадров длиной около пяти секунд. Нейросеть учитывает около 4,1 млрд параметров, из которых 2,7 млрд обучаются на видео. Ранее Nvidia добавила функцию масштабирования изображения видео в браузерах.