На фоне популярности генеративных нейросетей уже доступно огромное количество ИИ-алгоритмов для сотворения видео, таких как Sora, Haiper и Luma AI. Разработчики из Stability AI представили нечто абсолютно свежее. Речь идёт о нейросети Stable Video 4D, которая опирается на существующую модель Stable Video Diffusion, позволяющую преобразовывать изображения в видео. Новый инструмент развивает эту концепцию, создавая из получаемых видеоданных несколько роликов с 8 различными перспективами.
«Мы считаем, что Stable Video 4D будет применяться в кинопроизводстве, играх, AR/VR и других сферах, где находится необходимость просмотра динамически передвигающихся 3D-объектов с случайных ракурсов», — считает глава подразделения по 3D-исследованиям в Stability AI Варун Джампани (Varun Jampani).
Это не 1-ый случай, когда Stability AI выходит за границы генерации двумерного видео. В марте компания анонсировала метод Stable Video 3D, при помощи которого юзеры могут создавать недлинные 3D-ролики на базе изображения либо текстового описания. С пуском Stable Video 4D компания делает весомый шаг вперёд. Если понятие 3D либо 3-и измерения обычно понимается как тип изображения либо видео с глубиной, то 4D, не добавляет ещё 1-но измерение. По сути 4D содержит в себе ширину (x), высоту (y), глубину (z) и время (t). Это значит, что Stable Video 4D позволяет глядеть на передвигающиеся 3D-объекты с различных точек обзора и в различные моменты времени.
«Главные нюансы, которые дозволили сотворить Stable Video 4D, состоят в том, что мы соединили сильные стороны наших раньше выпущенных моделей Stable Video Diffusion и Stable Video 3D, вдобавок доработали их при помощи основательно подобранного набора данных динамически передвигающихся 3D-объектов», — объяснил Джампани. Он также добавил, что Stable Video 4D является первым в своём роде методом, в каком одна нейросеть делает сбор, обобщение изображения и генерацию видео. В уже имеющихся аналогах для решения этих задач употребляются отдельные нейросети.
«Stable Video 4D на сто процентов синтезирует 8-мь новых видео с нуля, используя для этого входное видео в качестве управления. Нет никакой очевидной передачи инфы о пикселях с входа на выход, вся эта передача инфы осуществляется нейросетью неявно», — добавил Джампани. Он добавил, что на этот миг Stable Video 4D может обрабатывать видео с одним объектом продолжительностью несколько секунд с обычным фоном. В будущем разработчики планируют сделать лучше метод, чтоб он мог применяться для обработки больше сложных видео.