
AI 也需降本增效 深探火山語(yǔ)音的“錦囊妙計(jì)”

就在市場(chǎng)利好、一眾科技企業(yè)緊鑼密鼓、跑步入場(chǎng),甚至不惜重金探索語(yǔ)音奧秘之時(shí),我們發(fā)現(xiàn)僅僅對(duì)交流內(nèi)容的準(zhǔn)確理解早已不能滿(mǎn)足市場(chǎng)需求,而在音色復(fù)刻、語(yǔ)言風(fēng)格變化甚至是多種“類(lèi)人”細(xì)節(jié)上的追求成為當(dāng)前差異化競(jìng)爭(zhēng)的重點(diǎn)
人工智能之父馬文·明斯基曾說(shuō):“如果機(jī)器不能夠很好地模擬情感,那么人們可能永遠(yuǎn)也不會(huì)覺(jué)得機(jī)器具有智能。”如今看來(lái),“機(jī)器類(lèi)人”這樣一件聽(tīng)起來(lái)有趣且令人著迷的事兒,早就不局限在《星際迷航》這樣的科幻電影中。以智能語(yǔ)音為例,有數(shù)據(jù)顯示,目前全球智能語(yǔ)音市場(chǎng)已形成每年200億美元的規(guī)模。相比之下,我國(guó)智能語(yǔ)音市場(chǎng)更是發(fā)展迅速:據(jù)《2020-2021中國(guó)語(yǔ)音產(chǎn)業(yè)發(fā)展白皮書(shū)》統(tǒng)計(jì):僅2020年我國(guó)該領(lǐng)域市場(chǎng)規(guī)模就已達(dá)到217億元,有望在2025年達(dá)到875億元,預(yù)計(jì)2019-2025年的復(fù)合增速將達(dá)到25%。
就在市場(chǎng)利好、一眾科技企業(yè)緊鑼密鼓、跑步入場(chǎng),甚至不惜重金探索語(yǔ)音奧秘之時(shí),我們發(fā)現(xiàn)僅僅對(duì)交流內(nèi)容的準(zhǔn)確理解早已不能滿(mǎn)足市場(chǎng)需求,而在音色復(fù)刻、語(yǔ)言風(fēng)格變化甚至是多種“類(lèi)人”細(xì)節(jié)上的追求成為當(dāng)前差異化競(jìng)爭(zhēng)的重點(diǎn):這其中不但包含了多項(xiàng)高難度的AI技術(shù)創(chuàng)新,對(duì)于模型訓(xùn)練以及數(shù)據(jù)標(biāo)注等環(huán)節(jié)的AI成本約束更是巨大的考驗(yàn)。
對(duì)此至頂網(wǎng)記者特別采訪(fǎng)了來(lái)自火山語(yǔ)音,即字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語(yǔ)音與音頻團(tuán)隊(duì)的諸多算法側(cè)以及工程側(cè)的工程師們,一起探討能讓企業(yè)在AI上降本增效的“錦囊妙計(jì)”。
在降本增效的道路上 模型優(yōu)化為“重中之重”但也是“難上加難”
眾所周知,模型在企業(yè)中對(duì)于降低AI成本、提升交互體驗(yàn)起著至關(guān)重要的作用。優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)通常成為獲取高效模型的第一步,對(duì)此火山語(yǔ)音音樂(lè)信息檢索與音樂(lè)創(chuàng)作方向算法工程師Song直言:“想要獲取優(yōu)質(zhì)數(shù)據(jù),標(biāo)注帶來(lái)的長(zhǎng)周期以及高成本,通常都是大家不得不面對(duì)的疑難問(wèn)題,但伴隨人工智能從有監(jiān)督向半監(jiān)督以及無(wú)監(jiān)督方向的迅速發(fā)展,未來(lái)大概率對(duì)于標(biāo)注數(shù)據(jù)量的需求會(huì)進(jìn)一步呈現(xiàn)下降趨勢(shì)。”
同為火山語(yǔ)音團(tuán)隊(duì)并長(zhǎng)期從事語(yǔ)音識(shí)別算法研究的維特比就很確信這一點(diǎn)。“目前在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域,預(yù)訓(xùn)練大模型率先取得了不小的成功。尤其在語(yǔ)音和音頻領(lǐng)域,近兩年也涌現(xiàn)出一批以Wav2vec 2.0為代表的自監(jiān)督預(yù)訓(xùn)練技術(shù)。其實(shí)原理主要就是通過(guò)‘預(yù)訓(xùn)練+少量數(shù)據(jù)微調(diào)’的組合方式,在語(yǔ)音識(shí)別、音頻事件檢測(cè)等下游任務(wù)上不但可以更好效果,最重要的是可以大幅降低對(duì)人工標(biāo)注數(shù)據(jù)的依賴(lài),大幅縮短模型訓(xùn)練的周期,進(jìn)而實(shí)現(xiàn)降本增效。”
談到無(wú)監(jiān)督學(xué)習(xí)技術(shù)對(duì)于AI 降本增效的促進(jìn),其實(shí)近期,火山語(yǔ)音發(fā)布的超自然對(duì)話(huà)語(yǔ)音合成技術(shù)就很典型。該技術(shù)主要通過(guò)使用無(wú)監(jiān)督特征的語(yǔ)音合成建模方案,僅使用常規(guī)音庫(kù)1/4的數(shù)據(jù)規(guī)模,就可實(shí)現(xiàn)十分自然多變的韻律效果。“尤其針對(duì)文本標(biāo)注不足的問(wèn)題,我們使用了偽數(shù)據(jù)對(duì)口語(yǔ)化模型進(jìn)行預(yù)訓(xùn)練,這樣就降低了數(shù)據(jù)量的需求。同時(shí)在模型中引入了指針網(wǎng)絡(luò)結(jié)構(gòu),增強(qiáng)了文本可控性。之后僅僅利用少量?jī)?yōu)質(zhì)的人工標(biāo)注數(shù)據(jù),對(duì)預(yù)訓(xùn)練好的口語(yǔ)化模型進(jìn)行微調(diào),就可實(shí)現(xiàn)可控的、自然的口語(yǔ)化文本效果了。”談及超自然技術(shù)的創(chuàng)新性,火山語(yǔ)音語(yǔ)音合成方向的算法工程師修昊有些滔滔不絕。
深入交談下來(lái),我們了解到,對(duì)修昊所在的語(yǔ)音合成團(tuán)隊(duì)來(lái)說(shuō),將數(shù)據(jù)標(biāo)注的成本降下來(lái)固然重要,但要想整體效果達(dá)到顯著提升,模型的基礎(chǔ)效果還需不斷迭代優(yōu)化,而這種利于AI成本降低的優(yōu)化顯然不是一朝一夕,或者幾招幾式就能達(dá)成的。“不同場(chǎng)景下的優(yōu)化目標(biāo)有差異,要了解模型的大致上限才行,還要明確技術(shù)痛點(diǎn),所以?xún)?yōu)化路線(xiàn)也都不一樣,做方案是必須的,有時(shí)候不同硬件上的遷移也需作出相應(yīng)調(diào)整。”
在針對(duì)模型效果提升的算法優(yōu)化上,他認(rèn)為可采用的方法有這樣幾種:例如可以對(duì)模型采用自適應(yīng)裁減策略,即通過(guò)減小模型從而提升效率;當(dāng)然也可以采用多任務(wù)模型,也就是將多個(gè)相關(guān)的子任務(wù)模型整合為單個(gè)多任務(wù)模型,提升效果的同時(shí)整體效率也得到了提升。“使用模型重參數(shù)化策略,推理階段合并算子,保證效果不損失的同時(shí)提升推理效率,通常也會(huì)是個(gè)不錯(cuò)的辦法。”他列舉道。
以語(yǔ)音合成前端的建模為例,作為一個(gè)NLP模型,通常會(huì)涉及分詞、韻律標(biāo)注、發(fā)音轉(zhuǎn)寫(xiě)、消歧等子任務(wù)。一般傳統(tǒng)方案會(huì)將每個(gè)子任務(wù)采用單獨(dú)模型來(lái)建模,經(jīng)過(guò)分析火山語(yǔ)音發(fā)現(xiàn),分詞、韻律標(biāo)注、發(fā)音消歧幾個(gè)任務(wù)是有高度相關(guān)性的,基于此將多個(gè)子任務(wù)重新設(shè)計(jì)成一個(gè)多任務(wù)模型,運(yùn)算效率相較于單獨(dú)子任務(wù)模型有了大幅提升,同時(shí)由于各任務(wù)是高度相關(guān)的,其效果也得到了進(jìn)一步提升。“此外為了不斷提升該模型效率,我們將該多任務(wù)模型進(jìn)行了蒸餾訓(xùn)練,將其運(yùn)算效率提升3倍以上,效果基本和原模型持平。”
值得提及的是,在將該模型遷移到移動(dòng)端的過(guò)程中,面臨的重大問(wèn)題聚焦在嵌入式詞表表征矩陣過(guò)大。針對(duì)該問(wèn)題,火山語(yǔ)音團(tuán)隊(duì)依照重要性,對(duì)于高維度詞表進(jìn)行壓縮,有效縮減詞表尺寸至20倍以下,保證效果損失可控的同時(shí)使其能在低計(jì)算及存儲(chǔ)資源的移動(dòng)端設(shè)備上運(yùn)行。“針對(duì)云端發(fā)音轉(zhuǎn)寫(xiě)模型在移動(dòng)端的壓縮比較受限,性能與模型尺寸高度相關(guān),火山語(yǔ)音重新設(shè)計(jì)了一款新的低資源轉(zhuǎn)寫(xiě)模型,引入專(zhuān)家先驗(yàn)同時(shí)采用并行結(jié)構(gòu)設(shè)計(jì),最終可以在云端效果接近的同時(shí),模型尺寸縮減10倍以上,已應(yīng)用到離線(xiàn)TTS模型中。”修昊總結(jié)道。
針對(duì)具體場(chǎng)景下的優(yōu)化提效,以語(yǔ)音識(shí)別為例。通常,語(yǔ)音識(shí)別的準(zhǔn)確率在部分理想場(chǎng)景中可以高達(dá)98%,但由于很多實(shí)際場(chǎng)景表現(xiàn)復(fù)雜,識(shí)別效果就會(huì)伴隨大幅降低,尤其在會(huì)議場(chǎng)景中,由于一些英文詞會(huì)被識(shí)別成發(fā)音相近的中文,從而導(dǎo)致準(zhǔn)確率大幅下降。火山語(yǔ)音語(yǔ)音識(shí)別方向算法研究員李志進(jìn)一步表示:“在具體場(chǎng)景中解決中英文混合識(shí)別問(wèn)題時(shí),其實(shí)盲目加大模型或者增加訓(xùn)練數(shù)據(jù)量并不能根本解決問(wèn)題,而是要貼合實(shí)際場(chǎng)景,針對(duì)性增加中英混合的數(shù)據(jù),并人工仿真出部分?jǐn)?shù)據(jù);另外在模型設(shè)計(jì)上也需要針對(duì)兩種語(yǔ)言混說(shuō)的情況,設(shè)計(jì)具備編碼開(kāi)關(guān)能力的編碼器來(lái)提升模型建模能力,并保證當(dāng)只有中文的情況下還能保障效果不變才可以。”可見(jiàn),無(wú)論是數(shù)據(jù)還是模型的改良,都要基于場(chǎng)景來(lái)?yè)駜?yōu)路線(xiàn)才行。
降低AI成本:從算法到工程缺一不可,且須持之以恒
“降低AI成本是一個(gè)端到端長(zhǎng)鏈條的工作,整個(gè)過(guò)程中算法、工程以及相關(guān)的專(zhuān)業(yè)人員需要緊密配合才能將成本壓縮極致。” 這是火山語(yǔ)音工程團(tuán)隊(duì)研發(fā)工程師小L長(zhǎng)期經(jīng)驗(yàn)的總結(jié)。
具體來(lái)說(shuō),在整體鏈路中,數(shù)據(jù)成本降低的關(guān)鍵在于如何采用組合拳有效減少帶標(biāo)數(shù)據(jù)的生產(chǎn)成本。小L表示,目前看通過(guò)更好的模型結(jié)構(gòu)方案直接降低訓(xùn)練所需要的帶標(biāo)數(shù)據(jù)量,或者經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練模型附加少量數(shù)據(jù)微調(diào)等手段都是減少帶標(biāo)數(shù)據(jù)量的常見(jiàn)方案。此外還涉及到通過(guò)引入AI輔助、平臺(tái)化、自動(dòng)化等方式來(lái)提升單位人力標(biāo)注效率,例如通過(guò)音頻消重、裁剪靜音片段、加入輔助文本、平臺(tái)化自動(dòng)流轉(zhuǎn)任務(wù)、標(biāo)注和校驗(yàn)流程設(shè)計(jì)和自動(dòng)化等方式,也可以顯著提升標(biāo)注效率,降低單位標(biāo)注數(shù)據(jù)成本。
“在訓(xùn)練環(huán)節(jié),除了需要考慮生產(chǎn)模型本身花費(fèi)的計(jì)算資源外,實(shí)踐中還需考慮算法人員在得到這樣一個(gè)生產(chǎn)可用的模型,過(guò)程中所使用的計(jì)算資源開(kāi)銷(xiāo),因此如何提升算法人員訓(xùn)練出可上線(xiàn)模型的過(guò)程效率,并降低生產(chǎn)模型本身的計(jì)算成本,是這個(gè)過(guò)程中的關(guān)鍵問(wèn)題。”火山語(yǔ)音工程團(tuán)隊(duì)研發(fā)工程師張工補(bǔ)充道。關(guān)于這個(gè)問(wèn)題的解決,火山語(yǔ)音工程團(tuán)隊(duì)提出可以使用容器化的方式來(lái)支持算法實(shí)驗(yàn),比方說(shuō)通過(guò)排隊(duì)等策略控制資源的總開(kāi)銷(xiāo);使用 AutoML 等手段加速模型結(jié)構(gòu)、參數(shù)搜索的過(guò)程;通過(guò)高性能 I/O、分布式通信優(yōu)化、計(jì)算通信并行、高性能算子等加速模型訓(xùn)練過(guò)程等;還可以通過(guò)平臺(tái)化方案,讓運(yùn)營(yíng)人員能夠直接調(diào)優(yōu)和訓(xùn)練模型,降低投入并節(jié)省人力成本。
談及重要的推理階段,小L表示,“由于AI服務(wù)屬于計(jì)算密集型,要把硬件資源利用到極致才是降低單位服務(wù)能力成本的重點(diǎn),所以可以通過(guò)把計(jì)算offload到用戶(hù)側(cè)設(shè)備(例如手機(jī)),在設(shè)備上運(yùn)行全部/部分的模型推理,來(lái)節(jié)省云端的服務(wù)成本和中間的帶寬成本。“例如采用在終端側(cè)直接運(yùn)行離線(xiàn) ASR、TTS 等方式,使用專(zhuān)用的 AI 芯片、計(jì)算硬件等,可以極大降低單位服務(wù)能力的成本;還可以通過(guò)端云異構(gòu)統(tǒng)一框架,提高AI原子能力迭代效率,對(duì)于基于不同硬件和指令集做深度的算子優(yōu)化,都是降低成本的可行辦法。”
火山語(yǔ)音,長(zhǎng)期以來(lái)面向字節(jié)跳動(dòng)各大業(yè)務(wù)線(xiàn)以及火山引擎ToB行業(yè)與創(chuàng)新場(chǎng)景,提供全球領(lǐng)先的AI語(yǔ)音技術(shù)能力以及卓越的全棧語(yǔ)音產(chǎn)品解決方案,包括音頻理解、音頻合成、虛擬數(shù)字人、對(duì)話(huà)交互、音樂(lè)檢索、智能硬件等。目前團(tuán)隊(duì)的語(yǔ)音識(shí)別和語(yǔ)音合成覆蓋了多種語(yǔ)言和方言,多篇技術(shù)論文入選各類(lèi)AI 頂級(jí)會(huì)議,為抖音、剪映、飛書(shū)、番茄小說(shuō)、Pico等業(yè)務(wù)提供了領(lǐng)先的語(yǔ)音能力,并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設(shè)備等多樣化場(chǎng)景,通過(guò)火山引擎開(kāi)放給外部企業(yè)。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
