
Stable Video Diffusion作為生成式視頻工具,應用前景待觀望!

AI生成視頻正在熱烈的研究和應用中,文生視頻、圖像生視頻帶來的新鮮感和動態(tài)感,受到大家廣泛關注。
AI生成視頻正在熱烈的研究和應用中,文生視頻、圖像生視頻帶來的新鮮感和動態(tài)感,受到大家廣泛關注。通過生成式AI視頻工具,你說一段描述,自動生成相應的視頻。你還可以選擇一張圖片,也能實現(xiàn)將靜止圖像轉化為動態(tài)視頻,讓文字和圖片瞬間活起來。
今天來介紹一款Stability AI 發(fā)布的基于人工智能的視頻生成工具Stable Video Diffusion,它可以根據(jù)用戶提供的文本描述或圖片,自動生成高質(zhì)量的視頻內(nèi)容。
Stable Video Diffusion 是 Stability AI 發(fā)布的基于圖像模型 Stable Diffusion 生成視頻的基礎模型。它是一個先進的生成式 AI 視頻模型。Stable Video Diffusion 可以適應各種下游任務,包括從單一圖像進行多視角合成和在多視角數(shù)據(jù)集上進行微調(diào)。Stable Video Diffusion 是 Stability AI 多樣化開源模型系列的一部分,涵蓋圖像、語言、音頻、3D和代碼。
目前Stable Video Diffusion 的代碼已在 Stability AI 的 GitHub 倉庫中提供。運行模型所需的權重可以通過他們的 Hugging Face 頁面訪問。我們從技術原理、產(chǎn)品特點以及使用體驗來說明一下Stable Video Diffusion的發(fā)展現(xiàn)狀。
從技術原理上講,Stable Video Diffusion提出了將潛在視頻擴散模型擴展到大型數(shù)據(jù)集的穩(wěn)定視頻擴散模型,這是一種用于高分辨率、最先進的文本到視頻和圖像到視頻生成的潛在視頻擴散模型。通過插入時間層并在小型高質(zhì)量視頻數(shù)據(jù)集上對其進行微調(diào),為2D圖像合成訓練的潛在擴散模型已轉換為生成視頻模型;谠撃P蚐table Video Diffusion目前確定并評估了視頻LDM成功訓練的三個不同階段:文本到圖像預訓練、視頻預訓練和高質(zhì)量視頻微調(diào)。
從產(chǎn)品特點看,除了文本到視頻和圖像到視頻的生成,還支持多幀生成。Stable Video Diffusion提供了兩種圖像到視頻的模型形式,支持14或25幀的視頻生成,分辨率高達576 x 1024。用戶可以根據(jù)自己的需求選擇適合的幀率,從而決定視頻的流暢度。高分辨率保證了視頻的清晰度,讓細節(jié)得以呈現(xiàn)。同時其提供的幀插值技術可以在幀數(shù)較少的情況下,使視頻看起來更加平滑。Stable Video Diffusion還支持3D場景生成,目前該功能同時容納了單個圖像和軌道視圖,允許沿著指定的相機路徑創(chuàng)建3D視頻。能夠生成更具空間感的視頻。Stable Video Diffusion提供了更精細的攝像機控制功能。通過LoRA控制攝像機,用戶可以精確控制攝像機的位置和角度,從而實現(xiàn)更加精細的視頻創(chuàng)作。
如何使用呢?首先訪問Stable Video Diffusion的官方網(wǎng)站,下載本地一鍵整合包。按照安裝向導的指示完成安裝過程。安裝完成后,打開本地一鍵整合包。在界面中選擇“文本到視頻”或“圖像到視頻”功能,根據(jù)您的需求進行選擇。我們以圖片轉視頻為例,選擇一張靜態(tài)圖片作為輸入。圖片的質(zhì)量高生成的視頻視覺效果更好。然后設置視頻參數(shù)包括視頻的幀率、分辨率等參數(shù)。Stable Video Diffusion支持14或25幀的生成,分辨率為576 x 1024。點擊“生成”按鈕,等待一些時間生成視頻。生成完成后,選擇“導出”選項,將視頻保存到您指定的文件夾中。生成時間各不相同,但在 V100 GPU 上通常約為 2 分鐘。
使用體驗來看,Stable Video Diffusion作為AI視頻生成工具,其特點包括本地一鍵整合包的使用,簡化了工具使用流程,提高了視頻創(chuàng)作效率,其生成的視頻也較為高質(zhì)量。但是目前看也有局限性,首先從模型來看,視頻擴散模型的采樣速度通常很慢,并且對VRAM的要求很高。盡管潛在方法提供了效率優(yōu)勢,但一次生成多個關鍵幀在訓練和推理過程中都是昂貴的。
其次長視頻合成方面存在一些根本性的缺點,生成的視頻相當短,不到四秒,無法實現(xiàn)完美的逼真度。還可能會生成沒有運動的視頻,或者相機平移速度非常慢。通常可能無法正確生成人臉和人物。對文本的理解也有缺憾。
本文章選自《數(shù)字化轉型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
