Компания Stable Artificial Intelligence обновила свою нейросеть Stable Diffusion, добавив в неё возможность генерировать короткие видеоролики на основе изображений, а разработчики компании Sber пошли еще дальше, создав модель Kandinsky Video, которая создает видеоролики на основе текстовых описаний. Это первая в России генеративная модель, создающая полноценные видеоролики на основе текстовых описаний.
В своем выступлении на AI Journey, Александр Ведяхин отметил возможности Kandinsky Video как инструмента для создания коротких видеороликов продолжительностью до восьми секунд с частотой смены кадров до 30 в секунду. Это обеспечивает плавность и естественность движения в создаваемых видеороликах.
Kandinsky Video работает в два этапа. На первом этапе создается несколько ключевых кадров, которые определяют сюжет видео. Затем программа создает промежуточные кадры, чтобы обеспечить плавное движение между ключевыми кадрами. В результате получается видео, в котором могут двигаться не только объекты, но и фон. Уникальность этой программы в том, что она может создавать видео с пролетами камеры, которые другие программы не могут создавать.
«Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится ещё больше возможностей для креатива и реализации своих творческих задумок любой направленности. Люди смогут создавать уникальные видеоролики абсолютно бесплатно. Наша модель, как и большинство других в линейке Сбера, будет доступна в open source. Мы верим, что искусственный интеллект сможет открыть перед людьми новые супервозможности и создать инструменты, которыми они будут пользоваться для решения своих задач», — рассказал Ведяхин.
Александр Ведяхин также сообщил, что нейросеть Kandinsky Video от Сбера может создавать видеоролики с разрешением 512 x 512 пикселей. Для обучения модели было использовано более 300 тысяч пар “текст — видео”. Искусственный интеллект может создать такое видео примерно за три минуты. Пользователи могут протестировать Kandinsky Video на платформе fusionbrain.ai или через Telegram-бота, где можно оставить заявку на доступ к сервису.