Google презентовала сразу две нейросети, нацеленные на генерацию видео по заданному текстовому описанию. Наиболее перспективно на сегодняшний день выглядит Imagen Video — модифицированная версия системы Imagen, представленной около полугода назад.
На данный момент Google Imagen Video умеет создавать короткие видео с разрешением 1280х768 пикселей и частотой 24 кадра в секунду. Результаты всё ещё далеки до идеала, но всё равно впечатляют, ведь совсем недавно нейросети умели создавать лишь двухмерные картинки, а теперь речь идёт о полноценных роликах.
Отмечается, что Imagen Video от Google позволяет использовать несколько стилей в духе известных художников, например, Ван Гога. При этом сами видео получаются трёхмерными, что позволяет посмотреть на сцену под любым углом, как наглядно показано в представленном примере с плюшевым медведем, моющим посуду.
Согласно имеющейся информации, Imagen Video представляет собой комбинацию из семи диффузионных моделей. На первом этапе они преобразовывают исходную текстовую подсказку в видео с низким разрешением 24х24 пикселя при частоте 3 кадра в секунду и общей продолжительностью в 16 кадров. После этого происходит постепенное масштабирование до более высокого разрешения и с более высокой частотой кадров. На выходе получается ролик длительностью 5,3 секунды.
Больше примеров работы нейросети Imagen Video можно посмотреть на официальном сайте проекта.
Вторая нейросеть под названием Phenaki пока что позволяет получать ролики куда меньшего разрешения и худшего качества. Но её преимущество заключается в возможности задавать более длинные и подобные текстовые описания, на основе которых создаются мини-фильмы с большим количеством сцен и событий. Больше примеров есть на сайте проекта.
Источник 4pda