一段令人驚嘆又讓人不安的AI語(yǔ)音演示在網(wǎng)上引發(fā)熱議。2013年,斯派克·瓊斯的電影《她》描繪了一個(gè)人們與AI語(yǔ)音助手建立情感聯(lián)系的未來(lái)。近12年后,AI初創(chuàng)公司Sesame發(fā)布的新對(duì)話語(yǔ)音模型使這一虛構(gòu)的設(shè)想更接近現(xiàn)實(shí),許多用戶對(duì)此感到既著迷又不安。
Podcastle是一款播客錄制和編輯平臺(tái),現(xiàn)已推出名為Asyncflow v1.0的AI文本轉(zhuǎn)語(yǔ)音模型,并為開發(fā)者提供API接口,方便其在應(yīng)用中直接集成該模型。新模型支持超過(guò)450種AI語(yǔ)音,能夠?yàn)槲谋具M(jìn)行朗讀。該公司表示,其技術(shù)和模型的訓(xùn)練及推理成本較低,使其在競(jìng)爭(zhēng)中具備優(yōu)勢(shì)。Podcastle的創(chuàng)始人Arto Yeritsyan表示,盡管開發(fā)成本高昂,但得益于最近的大型語(yǔ)言模型進(jìn)展,Podcastle終于能夠在不需要大量數(shù)據(jù)的情況下構(gòu)建高質(zhì)量的語(yǔ)音模型。
人工智能初創(chuàng)公司Zyphra推出了兩款開源文本轉(zhuǎn)語(yǔ)音模型,聲稱只需5秒樣本音頻就能克隆聲音。測(cè)試顯示,使用不到30秒的錄音即可生成逼真效果。這項(xiàng)技術(shù)雖然存在濫用風(fēng)險(xiǎn),但也有積極應(yīng)用前景,如幫助失聲者重獲聲音。該模型采用開源許可證發(fā)布,為語(yǔ)音合成領(lǐng)域帶來(lái)新的可能。
目前,虛擬制作行業(yè)發(fā)展已經(jīng)從以CG、語(yǔ)音合成的計(jì)算機(jī)技術(shù)為主的階段,經(jīng)歷5G、人工智能技術(shù)突破,到現(xiàn)在,進(jìn)入高速發(fā)展的新階段,虛擬制作的應(yīng)用領(lǐng)域逐步拓寬,全方面滲透進(jìn)入各個(gè)行業(yè)。