好看的皮囊、有趣的靈魂,虛擬人:我都要!
在一個(gè)嬰兒呱呱墜地之前,他/她的胚胎在母體的四十周時(shí)間里,會(huì)先發(fā)育出大腦雛形,緊接著心臟開(kāi)始跳動(dòng),直至四肢長(zhǎng)成、五官成型;在開(kāi)口叫出第一聲“媽媽”之前,他/她會(huì)用面部表情和肢體動(dòng)作(主要是哭和笑)表達(dá)需求;通常情況下,他/她會(huì)在1-2歲學(xué)會(huì)說(shuō)話和行走,然后在更往后的時(shí)間里接受教育,不斷拓展自己的知識(shí)體系和專(zhuān)業(yè)技能……
創(chuàng)造一個(gè)數(shù)字虛擬人,如同對(duì)以上這些“人類(lèi)特征”進(jìn)行模塊化拆解和組裝的過(guò)程——他/她會(huì)擁有一個(gè)形象,會(huì)學(xué)會(huì)一種或多種語(yǔ)言,會(huì)用表情和肢體進(jìn)行表達(dá),會(huì)具備“一技之長(zhǎng)”,也可能會(huì)被賦予特定的人設(shè)。
如果說(shuō),是細(xì)胞的分裂、生長(zhǎng)和分化帶來(lái)了前一種變化;那么,讓后一種情況得以“照進(jìn)現(xiàn)實(shí)”的,無(wú)疑是計(jì)算機(jī)技術(shù)的發(fā)展、演化和躍遷。
越來(lái)越多的虛擬人正在加入并且開(kāi)始影響人類(lèi)的生活。畢業(yè)于清華大學(xué)的學(xué)霸華智冰,走在時(shí)尚尖端的Ayayi,混跡娛樂(lè)圈的洛天依,一夜爆紅的柳夜熙,還有被認(rèn)為是虛擬人技術(shù)天花板的財(cái)經(jīng)AI主播N小黑等等。
他們?nèi)?ldquo;聲形并茂”,當(dāng)然也各有所長(zhǎng)。這種相通性和不同點(diǎn),主要源自三個(gè)基本特征的“定位”差異,即——外觀、行為和思想。這三個(gè)特征的背后是大量技術(shù)棧的支撐,涉及眾多的領(lǐng)域,包括圖形識(shí)別、視覺(jué)技術(shù)、3D建模、CG渲染、動(dòng)作捕捉、人工智能、計(jì)算機(jī)語(yǔ)音技術(shù)、自然語(yǔ)言處理等等。而一個(gè)虛擬人,一般情況下會(huì)由人物形象、語(yǔ)音生成、動(dòng)畫(huà)生成、音視頻合成顯示、交互等五個(gè)模塊構(gòu)成。(參考《2020年虛擬數(shù)字人發(fā)展白皮書(shū)》)
下面,我們將圍繞虛擬人的三個(gè)特征和五個(gè)模塊維度,拆解其制作過(guò)程中所需的技術(shù)與工具。
外觀:創(chuàng)建一副好看的“皮囊”
外觀形象的重要性在于,它是我們進(jìn)行印象刻畫(huà)和身份識(shí)別的最重要參照。所以在創(chuàng)造一個(gè)虛擬人時(shí),第一步通常也需要先進(jìn)行形象設(shè)計(jì)和建模,然后再結(jié)合渲染引擎實(shí)現(xiàn)對(duì)人物模型的驅(qū)動(dòng)。根據(jù)呈現(xiàn)形式,它有2D和3D兩大類(lèi),其中3D是目前也是往后虛擬人的主流形象。
3D人物形象的生成過(guò)程,涉及的一個(gè)核心技術(shù)是3D建模。它指的是利用三維制作軟件通過(guò)虛擬三維空間構(gòu)建出具有三維數(shù)據(jù)模型的過(guò)程,目前已經(jīng)在工業(yè)、電影等領(lǐng)域廣為使用,而早期虛擬人(主要用于工業(yè)電影)的構(gòu)建大多使用的也是這一技術(shù)。我們非常熟悉的《阿凡達(dá)》(Avatar)電影中的角色特效,主要就是基于3D建模+CG(計(jì)算機(jī)動(dòng)畫(huà))實(shí)現(xiàn)的。
但是,隨著近年來(lái)虛擬人制作需求量的增加,3D建模的缺點(diǎn)開(kāi)始顯現(xiàn)出來(lái)。舉例來(lái)說(shuō),它生成的往往是一個(gè)靜態(tài)模型,在綁定關(guān)鍵點(diǎn)之后,需要借助真人(中之人)通過(guò)動(dòng)作捕捉設(shè)備進(jìn)行形體、眼神、動(dòng)作等的捕捉,然后才能進(jìn)行驅(qū)動(dòng)和渲染——在虛擬人技術(shù)類(lèi)別中,這被劃分為“真人驅(qū)動(dòng)型”虛擬人。一般而言,它的生產(chǎn)周期更長(zhǎng),成本也比較高。
與之對(duì)應(yīng)的是“算法驅(qū)動(dòng)型”虛擬人。它基于的是深度學(xué)習(xí)模型的三維場(chǎng)景表達(dá)和對(duì)應(yīng)的神經(jīng)渲染管線,可以自驅(qū)動(dòng)學(xué)習(xí)模特說(shuō)話時(shí)的唇動(dòng)、表情、語(yǔ)音,以及姿態(tài)和動(dòng)作等等,不僅無(wú)需真人參與,還可以實(shí)現(xiàn)更快速的渲染,降低制作成本。所以,這種技術(shù)方法可以繞過(guò)傳統(tǒng)3D建模的一些缺點(diǎn),更適用于虛擬人的規(guī)模化制作。
目前來(lái)看,兩種技術(shù)路線各有優(yōu)劣,當(dāng)紅的虛擬人中既有“真人驅(qū)動(dòng)型”的,也有“算法驅(qū)動(dòng)型”的。而隨著人工智能技術(shù)的發(fā)展,算法、算力和數(shù)據(jù)的日趨完備,以及虛擬人應(yīng)用普及化時(shí)代的到來(lái),相信越來(lái)越多的公司會(huì)鎖定后一個(gè)“賽場(chǎng)”。
其中,非常典型的一個(gè)代表是華智冰、N小黑的“締造者”小冰公司——二者都是通過(guò)小冰框架的深度神經(jīng)網(wǎng)絡(luò)渲染技術(shù)(XNR)生成的。這種技術(shù)路徑選擇與特定的應(yīng)用場(chǎng)景有一定的關(guān)系。
虛擬AI主播“N小黑”
以N小黑為例,他的背后是24小時(shí)不間斷的內(nèi)容生產(chǎn)和直播,如果使用3D建模的方法做一個(gè)15秒的片子,可能需要長(zhǎng)達(dá)數(shù)月時(shí)間,顯然無(wú)法支持這一場(chǎng)景的實(shí)現(xiàn);但是基于深度神經(jīng)網(wǎng)絡(luò)技術(shù),整個(gè)過(guò)程是全自動(dòng)化并且實(shí)時(shí)的,一邊輸入文本,另一邊的人就能動(dòng)起來(lái)。
當(dāng)然,這種方法更適用于單一場(chǎng)景,比如N小黑的主要工作是財(cái)經(jīng)主播,如果突然要讓他去表演太極拳,可能就無(wú)法立即實(shí)現(xiàn)。針對(duì)這種需求,尤其是工業(yè)電影的使用場(chǎng)景,3D建?赡芨鼮楹线m。
行為:無(wú)限趨近人類(lèi)的自然表達(dá)
除了時(shí)間、成本以及應(yīng)用場(chǎng)景方面的差異,還值得強(qiáng)調(diào)的一點(diǎn)是,相較于傳統(tǒng)3D建模技術(shù)通過(guò)貼片增加細(xì)節(jié)的方式,由算法驅(qū)動(dòng)生成的虛擬人通過(guò)對(duì)真人細(xì)節(jié)的“學(xué)習(xí)”和“模仿”,在逼真度和自然度的表現(xiàn)也要更好一些。這會(huì)進(jìn)一步影響虛擬人的下一個(gè)特征——行為。
虛擬人的行為能力中主要包括了面部表情、肢體動(dòng)作以及語(yǔ)言,涉及動(dòng)畫(huà)生成模塊和語(yǔ)音生成模塊。其中,面部表情是人類(lèi)表達(dá)情緒的第一道“密碼”。但是,早期的虛擬人大多是標(biāo)準(zhǔn)的“微笑營(yíng)業(yè)臉”,即便可以做出其它表情也顯得相當(dāng)僵硬。
按照前文所說(shuō),算法驅(qū)動(dòng)可以在很大程度上解決這個(gè)問(wèn)題。比如今年初Unity收購(gòu)的Ziva Dynamics就是一家精通復(fù)雜模擬與模型變形、機(jī)器學(xué)習(xí)與實(shí)時(shí)角色創(chuàng)作的企業(yè)。雙方共同創(chuàng)建的名為Emma的數(shù)字人就是由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的,她的模型使用了超過(guò)30TB的4D數(shù)據(jù)進(jìn)行訓(xùn)練,可以呈現(xiàn)出超過(guò) 72000個(gè)訓(xùn)練好的肌肉形狀,讓她的面部表情高度逼真且極具情感。
數(shù)字人Emma
顯然,這并不是單技術(shù)或者單學(xué)科的成果,而是跨學(xué)科的“藝術(shù)”呈現(xiàn)。引用Emma對(duì)自己的介紹,“這是結(jié)合機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和生物力學(xué)尖端技術(shù)的成果。而它將從根本上改變制作人類(lèi)角色的方式。”
肢體動(dòng)作的表達(dá)也是同理。想要讓虛擬人根據(jù)表達(dá)的內(nèi)容和情緒流暢地切換狀態(tài),背后需要更豐富的AI機(jī)器學(xué)習(xí)和深度學(xué)習(xí)能力,以及生物科學(xué)的支持。只有當(dāng)算法模型中積累了大量真人表情、肢體表達(dá)的數(shù)據(jù)之后,才能讓虛擬人像真人無(wú)限趨近。
好看的皮囊靠“顏”,有趣的靈魂靠“言”。和表情和動(dòng)作相比,語(yǔ)言是更直接的表達(dá)方式,也是溝通交流的主要通道。而教虛擬人“說(shuō)話”這件事本身并不算難,基于語(yǔ)音合成技術(shù)(TTS),將文本轉(zhuǎn)化為語(yǔ)音,再利用上面所說(shuō)的各種驅(qū)動(dòng)模型生成對(duì)應(yīng)的唇動(dòng)、口型、表情,加上自然語(yǔ)言處理(NLP)能力,就能渲染出符合多數(shù)場(chǎng)景使用的虛擬人語(yǔ)言交互畫(huà)面。并且,和人類(lèi)掌握語(yǔ)言的方式不同,借助于自然語(yǔ)言處理技術(shù),虛擬人還可以更輕松地學(xué)習(xí)各種不同的語(yǔ)言,做到多語(yǔ)種的輸出。
但是,讓虛擬人“自然交流”卻是更有難度的。在人類(lèi)世界,這種情感識(shí)別能力與“情商”有關(guān),而在虛擬人世界,這與其“思想”有關(guān)。
思想:賦予知識(shí)與靈魂
一般來(lái)說(shuō),當(dāng)一個(gè)虛擬人具有能夠識(shí)別外界,并且能與人進(jìn)行自然交互的能力,就可以理解為他/她被賦予了“思想”(虛擬人分交互型與非交互型兩種,以下內(nèi)容主要以交互型為例)。
我們顯然不希望在跟虛擬人對(duì)話時(shí),常常得到答非所問(wèn)的反饋,也不喜歡跟一個(gè)三五番來(lái)回就變成話題終結(jié)者的虛擬人多費(fèi)口舌。于是,多模態(tài)交互能力在虛擬人世界中“卷”了起來(lái)——這背后涉及的是交互模塊的調(diào)用,是智能化技術(shù)水平的體現(xiàn),是復(fù)雜的算法模型的支持。
還以一直主打共情、共感能力的小冰為例:據(jù)了解,小冰框架用于產(chǎn)生回復(fù)的模型綜合了檢索模型、生成模型、共感模型,以及對(duì)話引導(dǎo)模型,由此可以生成具有共感策略的回復(fù),形成較為完善的對(duì)話目的性和邏輯性。就像是兩個(gè)人在聊天,可能有“廢話”,可能會(huì)話趕話,但不是笨拙的、機(jī)械的問(wèn)與答。
另外,一個(gè)有“靈魂”的虛擬人,其“思想”的個(gè)性化定制,會(huì)根據(jù)應(yīng)用場(chǎng)景、類(lèi)型劃分、人設(shè)定位進(jìn)行設(shè)定,主要受訓(xùn)練數(shù)據(jù)和模型的影響。
比如,同屬于百度的數(shù)字人矩陣,百度AI手語(yǔ)主播的訓(xùn)練數(shù)據(jù)是大量的自然手語(yǔ)語(yǔ)料庫(kù),不僅需要結(jié)合視覺(jué)識(shí)別技術(shù)的支持,同時(shí),還需要ASR語(yǔ)音識(shí)別模型、手語(yǔ)翻譯模型、動(dòng)作生成模型的支持;其它服務(wù)型數(shù)字人的知識(shí)“專(zhuān)業(yè)性”則更強(qiáng),例如針對(duì)浦發(fā)銀行推出的數(shù)字人“小浦”,訓(xùn)練數(shù)據(jù)是金融業(yè)務(wù)語(yǔ)料,而針對(duì)中國(guó)聯(lián)通推出的數(shù)字人“小U”,訓(xùn)練數(shù)據(jù)則是通信業(yè)務(wù)語(yǔ)料。
央視新聞AI手語(yǔ)主播
當(dāng)然,有的虛擬人不僅具備“專(zhuān)業(yè)技能”,還有更廣泛的知識(shí)體系。“AI畫(huà)家”夏語(yǔ)冰也擁有天籟之音;Ayayi不僅是時(shí)尚代言人還在成為數(shù)字策展人、潮牌主理人——最終,虛擬人就像人類(lèi)一樣可能是多才多藝的,他們與人類(lèi)的交互也無(wú)疑是多模態(tài)的,方式上涉及文字、語(yǔ)音、視覺(jué)、動(dòng)作、環(huán)境等多種感官,時(shí)間上則更要求實(shí)時(shí),過(guò)高的延時(shí)反饋可能會(huì)變得難以容忍。
音視頻合成顯示模塊的作用是把語(yǔ)音和動(dòng)畫(huà)合成視頻之后呈現(xiàn)給用戶(hù),這個(gè)過(guò)程依賴(lài)于底層算力的支持。只有足夠的算力,才能讓超寫(xiě)實(shí)人物的實(shí)時(shí)渲染、復(fù)雜的人機(jī)對(duì)話,以及高門(mén)檻的專(zhuān)業(yè)知識(shí)賦能具備可行性。比如,基于超強(qiáng)的GPU渲染和AI算力能力,英偉達(dá)長(zhǎng)期以來(lái)一直在加速圖形渲染的效率,在去年,還實(shí)現(xiàn)了對(duì)高清3D的實(shí)時(shí)渲染。
技術(shù)進(jìn)階,未來(lái)可期
無(wú)疑,技術(shù)的發(fā)展正在不斷彌合虛擬人的“能力缺口”,拉近虛擬人與人類(lèi)的距離。隨著各類(lèi)應(yīng)用需求的廣泛衍生,虛擬人將加快步入高速發(fā)展階段。
按照元宇宙的構(gòu)想,在未來(lái)世界,每個(gè)人都會(huì)擁有至少一個(gè)虛擬人。技術(shù)進(jìn)階,正在讓這一切發(fā)生,讓虛擬人的外觀更逼真、行為更靈動(dòng)、思想更豐富,當(dāng)然,也讓我們對(duì)未來(lái)充滿(mǎn)想象和期待。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
