
入局AIGC 這家公司提供全方位的工具

當(dāng)前,人們對AIGC的探索已經(jīng)進(jìn)入了商業(yè)化、規(guī);碾A段。隨著越來越多的科技巨頭加入這個賽道,創(chuàng)造出令人驚嘆的AI生成作品,有理由相信,AIGC的大航海時代已經(jīng)來臨。
繼AlhpaGo在圍棋比賽中戰(zhàn)勝人類之后,業(yè)界又在AIGC(AI Generated Content,AI生成內(nèi)容)領(lǐng)域取得了一系列新突破。AI繪畫《太空歌劇院》擊敗人類作品,拿到數(shù)字藝術(shù)比賽冠軍,聊天對話機(jī)器人ChatGPT的綜合文本創(chuàng)作能力已明顯超過普通人。
AIGC逐漸受到大家的關(guān)注,目前已經(jīng)可以自動生成文字、圖片、音頻、視頻,甚至3D模型和代碼。作為GPU加速計(jì)算的引領(lǐng)者,英偉達(dá)在驅(qū)動AIGC應(yīng)用方面也發(fā)揮著重要作用。
NVIDIA高級解決方案架構(gòu)師唐康祺告訴記者,英偉達(dá)在重構(gòu)整個行業(yè)和社會的核心技術(shù)平臺上,提供了全面的軟硬件產(chǎn)品,為AIGC提供多方面的助力。
Omniverse平臺——AI驅(qū)動內(nèi)容生產(chǎn)
長期關(guān)注NVIDIA的朋友,一定對于黃教主的虛擬分身不陌生,雖然演講中只有十幾秒,但是已經(jīng)非常震撼。
數(shù)字虛擬人是AIGC的重要方面,而針對設(shè)計(jì)協(xié)作、數(shù)字孿生、數(shù)字人的計(jì)算平臺,Omniverse融合多領(lǐng)域技術(shù),實(shí)現(xiàn)跨行業(yè)的3D設(shè)計(jì)設(shè)計(jì)協(xié)作和工業(yè)數(shù)字孿生。
唐康祺表示,NVIDIA打造Omniverse以實(shí)現(xiàn)虛擬世界,聚合3D工作流程提升設(shè)計(jì)師、藝術(shù)家和工程師創(chuàng)意效率。
例如針對虛擬數(shù)字人,Omniverse針對數(shù)字人有一系列不同的渲染機(jī)制,利用GPU渲染可以讓數(shù)字人更接近真實(shí)的人類。
其次是RTX Render技術(shù),即實(shí)時光線追蹤技術(shù)。數(shù)字虛擬人會和周遭環(huán)境進(jìn)行互動,模擬城市、人員、建筑等一系列復(fù)雜的生態(tài)環(huán)境系統(tǒng)都可以通過Omniverse完成。
Stable Diffusion是2022年發(fā)布的深度學(xué)習(xí)文本生成圖像模型,其擴(kuò)散模型利用一系列去噪自編碼器,將噪聲逐步生成高清圖像。Omniverse提供了Stable Diffusion插件集成,借助微服務(wù)實(shí)現(xiàn)Triton部署加速。
AIGC工具——2維和3維以及多模態(tài)
除此以外,NVIDIA還提供了眾多AIGC工具,涵蓋2維和3維以及多模態(tài)。
2維圖像生成編輯:StyleGAN/EditGAN、Canvas自動繪圖軟件。其中,StyleGAN生成式對抗網(wǎng)絡(luò)是一種最先進(jìn)的高分辨率圖像合成方法,從最初的GAN到StyleGAN2變體,其圖像合成能力一直在突破人類的想象,而升級版StyleGAN3的對生成細(xì)節(jié)的把控更是令人驚嘆!
雖然生成式對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)已被廣泛用于各種應(yīng)用,包括圖像編輯、圖像翻譯以及視頻生成,現(xiàn)有的控制生成的模型也達(dá)到了很高的水平,但總體而言,在合成過程的基礎(chǔ)層面仍有極大的改善空間。
在StyleGAN3中,英偉達(dá)將網(wǎng)絡(luò)中的所有信號解釋為連續(xù)的,并對架構(gòu)進(jìn)行輕微調(diào)整保證不需要的信息不會泄漏到分層合成過程,最終得到了StyleGAN3,相比于StyleGAN2,它在保證了圖像基本質(zhì)量的同時,明顯改善了其內(nèi)部的表示方式——即使在亞像素尺度上也能實(shí)現(xiàn)絕對的平移和旋轉(zhuǎn)。
3維資產(chǎn)生成:GET3D/Magic3D、Replicator: 合成場景數(shù)據(jù)、GANVerse3D OV插件等。
例如Magic3D將低分辨率生成的粗略模型優(yōu)化為高分辨率的精細(xì)模型,還可以對3D網(wǎng)格進(jìn)行基于提示的實(shí)時編輯。想改變生成模型,只要改改文字提示,就能立即生成新的模型。
另外,Magic3D可以在幾代生成圖像中均保留相同的主題(一般稱為“一致性”),不會出現(xiàn)越畫越離譜的情況,并將2D圖像(如立體派繪畫)的風(fēng)格應(yīng)用于3D模型。
不同模態(tài)——語音: Riva文本轉(zhuǎn)語音,可根據(jù)用戶音頻數(shù)據(jù)微調(diào);Audio2Face,輸入聲音生成表情;Avatar ACE,數(shù)字人微服務(wù)。
比如Audio2Face只需要一段文字,便能夠通過基于AI深度神經(jīng)網(wǎng)絡(luò)感知能力的英偉達(dá)會話式人工智能系統(tǒng),來感知語言下的情緒,把一段文字變成豐富的面部表情,再自動基于AI實(shí)時渲染系統(tǒng)疊加到虛擬人上。而以前則要進(jìn)行配音、口形適配,并考慮當(dāng)前的語態(tài)、語境,進(jìn)行面部表情分離,重新渲染面部表情,整個環(huán)節(jié)太繁瑣,時間、人力、物力成本都過于巨大。
結(jié)語
工欲善其事必先利其器,AIGC產(chǎn)業(yè)發(fā)展離不開產(chǎn)業(yè)鏈上下游的協(xié)同發(fā)展。
當(dāng)前,人們對AIGC的探索已經(jīng)進(jìn)入了商業(yè)化、規(guī);碾A段。隨著越來越多的科技巨頭加入這個賽道,創(chuàng)造出令人驚嘆的AI生成作品,有理由相信,AIGC的大航海時代已經(jīng)來臨。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
