
音視頻全都要!Pika不再是單純的視頻生成工具

“視頻生成”的工作可不只是生成視頻。
給貓咪戴上墨鏡、讓麥田圈變成甜甜圈、在沙灘上顯示你的名字…… 三言兩語就能讓AI生成一段視頻,從早期的Runway到Pika,再到前陣子引起熱議的Sora,每款產(chǎn)品出現(xiàn),輿論都直指好萊塢,視頻制作的門檻立刻被拉了下來。
其實Pika Labs的成立到現(xiàn)在也不過一年時間,去年11月29日,Pika 1.0發(fā)布時,宣傳視頻展現(xiàn)出驚艷的生成效果,只有4人的小團隊,加上創(chuàng)始人是從斯坦福退學(xué)的兩位年輕華裔女性,讓Pika在當時變得極具話題性,也在中國引起熱議。
不過Pika生成視頻的效果至今沒有什么進步,看起來也很難與Sora抗衡,所以目前Pika也只是更多地在功能和使用體驗上下功夫。
在短短不到半年時間里,Pika增加了不少新功能,不僅能根據(jù)視頻畫面生成音效,還能為人物對口型,最近還推出了風(fēng)格選項。Pika正試圖把自己打造成一個“all in one”的視頻制作工具,從畫面到聲音,一手包辦。
Pika非常好上手,除了可以上傳照片和視頻外,使用方法基本和ChatGPT無異——輸入你的指令,發(fā)送出去就行了。不過Pika比較麻煩的是,每次只能生成3秒鐘的視頻,如果想用Pika制作較長的視頻,需要訂閱它的幾檔付費計劃,這樣就能直接在上一次生成的3秒鐘視頻里接續(xù)生成后面的內(nèi)容。
不過在生成完的視頻下方點選“Add 4s”后的對話框界面,可以看出,它延長視頻時間的方法,也只是在上一次生成的視頻畫面基礎(chǔ)上,搭配提示詞,而且也只能生成4秒鐘而已。
所以我也可以截取生成完視頻的最后一幀,配合提示詞,讓之前生成的故事延續(xù)3秒鐘。
不過和許多生成式AI一樣,Pika生成的內(nèi)容也有一定的不可控性,想要最好的效果,不僅要精心設(shè)計提示詞,也需要多多試錯。
在修改視頻的步驟上,Pika最近推出了修改風(fēng)格(Styles)的選項,提供動漫、陰郁、3D、水彩、自然、粘土動畫、黑白7種選擇。
在實際選擇一種風(fēng)格后,就能看到一句提示詞,說明這些改變風(fēng)格的選項本質(zhì)上還是通過輸入提示詞來實現(xiàn)的。
對比生成效果,構(gòu)圖雖然沒有多大變化,風(fēng)格夜的確是粘土動畫,但整體的顏色還有任務(wù)的神態(tài)并沒有很好的還原出來。
可能是為了彌補視頻生成能力的不足,所以Pika一直在豐富自己的功能。前陣子還加入了音效(Sound Effects)生成能力,簡單來說,就是讓Pika識別視頻內(nèi)容,并搭配一段合適的音效。
有時候Pika為視頻生成的音效完全看不出與視頻本身有任何關(guān)聯(lián)性,所以Pika每次都會提供三種音效供選擇,這也許也算是一種“補救措施”吧。
不過生成的音效到底能用,還是取決于視頻內(nèi)容,如果沒有明顯的場景,Pika可能也難以決定放怎樣的音效比較適合。
比如煙花的畫面就比一間會議室或簡單的人像更容易識別,你甚至不需要額外補充提示詞,它就能生成完全符合畫面內(nèi)容的音效。
如果是人像畫面,其實對口型(Lip sync)功能更適合它,只是這個功能與Pika的主要能力關(guān)聯(lián)性不是很強,因為這個選項需要上傳視頻或照片,或者在生成好的視頻里面點“編輯”按鈕才能出現(xiàn),而不是在文生圖的過程中“順便”完成一下。
可以輸入文字,選擇幾個預(yù)設(shè)的聲音,讓他們幫你朗讀,或者直接上傳音頻,根據(jù)音頻內(nèi)容對口型。
朗讀的聲音還是比較自然的,而且講中文的語氣也挺自然的,但問題是口型不太自然,能看得出是AI生成的。
Pika目前給我一種“泛而不精”的印象,什么功能都要沾一點,但表現(xiàn)都不盡如人意。也許現(xiàn)在的Pika定位娛樂體驗多于生產(chǎn)力,從輸入框旁邊的骰子按鈕就能看出這一點。
不過Pika也在豐富各種功能,而且每一項功能的使用體驗都可以說相當精美,對于生成視頻的畫面比例、反向提示詞、運動強度等等也有專門的區(qū)域做調(diào)整,甚至還提供了文件夾方便管理生成的項目,可以看出它在生產(chǎn)力上面也有十足的野心。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
