AI 也需降本增效 深探火山語音的“錦囊妙計”
就在市場利好、一眾科技企業(yè)緊鑼密鼓、跑步入場,甚至不惜重金探索語音奧秘之時,我們發(fā)現(xiàn)僅僅對交流內(nèi)容的準確理解早已不能滿足市場需求,而在音色復刻、語言風格變化甚至是多種“類人”細節(jié)上的追求成為當前差異化競爭的重點
人工智能之父馬文·明斯基曾說:“如果機器不能夠很好地模擬情感,那么人們可能永遠也不會覺得機器具有智能。”如今看來,“機器類人”這樣一件聽起來有趣且令人著迷的事兒,早就不局限在《星際迷航》這樣的科幻電影中。以智能語音為例,有數(shù)據(jù)顯示,目前全球智能語音市場已形成每年200億美元的規(guī)模。相比之下,我國智能語音市場更是發(fā)展迅速:據(jù)《2020-2021中國語音產(chǎn)業(yè)發(fā)展白皮書》統(tǒng)計:僅2020年我國該領域市場規(guī)模就已達到217億元,有望在2025年達到875億元,預計2019-2025年的復合增速將達到25%。
就在市場利好、一眾科技企業(yè)緊鑼密鼓、跑步入場,甚至不惜重金探索語音奧秘之時,我們發(fā)現(xiàn)僅僅對交流內(nèi)容的準確理解早已不能滿足市場需求,而在音色復刻、語言風格變化甚至是多種“類人”細節(jié)上的追求成為當前差異化競爭的重點:這其中不但包含了多項高難度的AI技術創(chuàng)新,對于模型訓練以及數(shù)據(jù)標注等環(huán)節(jié)的AI成本約束更是巨大的考驗。
對此至頂網(wǎng)記者特別采訪了來自火山語音,即字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊的諸多算法側(cè)以及工程側(cè)的工程師們,一起探討能讓企業(yè)在AI上降本增效的“錦囊妙計”。
在降本增效的道路上 模型優(yōu)化為“重中之重”但也是“難上加難”
眾所周知,模型在企業(yè)中對于降低AI成本、提升交互體驗起著至關重要的作用。優(yōu)質(zhì)的訓練數(shù)據(jù)通常成為獲取高效模型的第一步,對此火山語音音樂信息檢索與音樂創(chuàng)作方向算法工程師Song直言:“想要獲取優(yōu)質(zhì)數(shù)據(jù),標注帶來的長周期以及高成本,通常都是大家不得不面對的疑難問題,但伴隨人工智能從有監(jiān)督向半監(jiān)督以及無監(jiān)督方向的迅速發(fā)展,未來大概率對于標注數(shù)據(jù)量的需求會進一步呈現(xiàn)下降趨勢。”
同為火山語音團隊并長期從事語音識別算法研究的維特比就很確信這一點。“目前在計算機視覺和自然語言處理領域,預訓練大模型率先取得了不小的成功。尤其在語音和音頻領域,近兩年也涌現(xiàn)出一批以Wav2vec 2.0為代表的自監(jiān)督預訓練技術。其實原理主要就是通過‘預訓練+少量數(shù)據(jù)微調(diào)’的組合方式,在語音識別、音頻事件檢測等下游任務上不但可以更好效果,最重要的是可以大幅降低對人工標注數(shù)據(jù)的依賴,大幅縮短模型訓練的周期,進而實現(xiàn)降本增效。”
談到無監(jiān)督學習技術對于AI 降本增效的促進,其實近期,火山語音發(fā)布的超自然對話語音合成技術就很典型。該技術主要通過使用無監(jiān)督特征的語音合成建模方案,僅使用常規(guī)音庫1/4的數(shù)據(jù)規(guī)模,就可實現(xiàn)十分自然多變的韻律效果。“尤其針對文本標注不足的問題,我們使用了偽數(shù)據(jù)對口語化模型進行預訓練,這樣就降低了數(shù)據(jù)量的需求。同時在模型中引入了指針網(wǎng)絡結構,增強了文本可控性。之后僅僅利用少量優(yōu)質(zhì)的人工標注數(shù)據(jù),對預訓練好的口語化模型進行微調(diào),就可實現(xiàn)可控的、自然的口語化文本效果了。”談及超自然技術的創(chuàng)新性,火山語音語音合成方向的算法工程師修昊有些滔滔不絕。
深入交談下來,我們了解到,對修昊所在的語音合成團隊來說,將數(shù)據(jù)標注的成本降下來固然重要,但要想整體效果達到顯著提升,模型的基礎效果還需不斷迭代優(yōu)化,而這種利于AI成本降低的優(yōu)化顯然不是一朝一夕,或者幾招幾式就能達成的。“不同場景下的優(yōu)化目標有差異,要了解模型的大致上限才行,還要明確技術痛點,所以優(yōu)化路線也都不一樣,做方案是必須的,有時候不同硬件上的遷移也需作出相應調(diào)整。”
在針對模型效果提升的算法優(yōu)化上,他認為可采用的方法有這樣幾種:例如可以對模型采用自適應裁減策略,即通過減小模型從而提升效率;當然也可以采用多任務模型,也就是將多個相關的子任務模型整合為單個多任務模型,提升效果的同時整體效率也得到了提升。“使用模型重參數(shù)化策略,推理階段合并算子,保證效果不損失的同時提升推理效率,通常也會是個不錯的辦法。”他列舉道。
以語音合成前端的建模為例,作為一個NLP模型,通常會涉及分詞、韻律標注、發(fā)音轉(zhuǎn)寫、消歧等子任務。一般傳統(tǒng)方案會將每個子任務采用單獨模型來建模,經(jīng)過分析火山語音發(fā)現(xiàn),分詞、韻律標注、發(fā)音消歧幾個任務是有高度相關性的,基于此將多個子任務重新設計成一個多任務模型,運算效率相較于單獨子任務模型有了大幅提升,同時由于各任務是高度相關的,其效果也得到了進一步提升。“此外為了不斷提升該模型效率,我們將該多任務模型進行了蒸餾訓練,將其運算效率提升3倍以上,效果基本和原模型持平。”
值得提及的是,在將該模型遷移到移動端的過程中,面臨的重大問題聚焦在嵌入式詞表表征矩陣過大。針對該問題,火山語音團隊依照重要性,對于高維度詞表進行壓縮,有效縮減詞表尺寸至20倍以下,保證效果損失可控的同時使其能在低計算及存儲資源的移動端設備上運行。“針對云端發(fā)音轉(zhuǎn)寫模型在移動端的壓縮比較受限,性能與模型尺寸高度相關,火山語音重新設計了一款新的低資源轉(zhuǎn)寫模型,引入專家先驗同時采用并行結構設計,最終可以在云端效果接近的同時,模型尺寸縮減10倍以上,已應用到離線TTS模型中。”修昊總結道。
針對具體場景下的優(yōu)化提效,以語音識別為例。通常,語音識別的準確率在部分理想場景中可以高達98%,但由于很多實際場景表現(xiàn)復雜,識別效果就會伴隨大幅降低,尤其在會議場景中,由于一些英文詞會被識別成發(fā)音相近的中文,從而導致準確率大幅下降;鹕秸Z音語音識別方向算法研究員李志進一步表示:“在具體場景中解決中英文混合識別問題時,其實盲目加大模型或者增加訓練數(shù)據(jù)量并不能根本解決問題,而是要貼合實際場景,針對性增加中英混合的數(shù)據(jù),并人工仿真出部分數(shù)據(jù);另外在模型設計上也需要針對兩種語言混說的情況,設計具備編碼開關能力的編碼器來提升模型建模能力,并保證當只有中文的情況下還能保障效果不變才可以。”可見,無論是數(shù)據(jù)還是模型的改良,都要基于場景來擇優(yōu)路線才行。
降低AI成本:從算法到工程缺一不可,且須持之以恒
“降低AI成本是一個端到端長鏈條的工作,整個過程中算法、工程以及相關的專業(yè)人員需要緊密配合才能將成本壓縮極致。” 這是火山語音工程團隊研發(fā)工程師小L長期經(jīng)驗的總結。
具體來說,在整體鏈路中,數(shù)據(jù)成本降低的關鍵在于如何采用組合拳有效減少帶標數(shù)據(jù)的生產(chǎn)成本。小L表示,目前看通過更好的模型結構方案直接降低訓練所需要的帶標數(shù)據(jù)量,或者經(jīng)過大規(guī)模預訓練模型附加少量數(shù)據(jù)微調(diào)等手段都是減少帶標數(shù)據(jù)量的常見方案。此外還涉及到通過引入AI輔助、平臺化、自動化等方式來提升單位人力標注效率,例如通過音頻消重、裁剪靜音片段、加入輔助文本、平臺化自動流轉(zhuǎn)任務、標注和校驗流程設計和自動化等方式,也可以顯著提升標注效率,降低單位標注數(shù)據(jù)成本。
“在訓練環(huán)節(jié),除了需要考慮生產(chǎn)模型本身花費的計算資源外,實踐中還需考慮算法人員在得到這樣一個生產(chǎn)可用的模型,過程中所使用的計算資源開銷,因此如何提升算法人員訓練出可上線模型的過程效率,并降低生產(chǎn)模型本身的計算成本,是這個過程中的關鍵問題。”火山語音工程團隊研發(fā)工程師張工補充道。關于這個問題的解決,火山語音工程團隊提出可以使用容器化的方式來支持算法實驗,比方說通過排隊等策略控制資源的總開銷;使用 AutoML 等手段加速模型結構、參數(shù)搜索的過程;通過高性能 I/O、分布式通信優(yōu)化、計算通信并行、高性能算子等加速模型訓練過程等;還可以通過平臺化方案,讓運營人員能夠直接調(diào)優(yōu)和訓練模型,降低投入并節(jié)省人力成本。
談及重要的推理階段,小L表示,“由于AI服務屬于計算密集型,要把硬件資源利用到極致才是降低單位服務能力成本的重點,所以可以通過把計算offload到用戶側(cè)設備(例如手機),在設備上運行全部/部分的模型推理,來節(jié)省云端的服務成本和中間的帶寬成本。“例如采用在終端側(cè)直接運行離線 ASR、TTS 等方式,使用專用的 AI 芯片、計算硬件等,可以極大降低單位服務能力的成本;還可以通過端云異構統(tǒng)一框架,提高AI原子能力迭代效率,對于基于不同硬件和指令集做深度的算子優(yōu)化,都是降低成本的可行辦法。”
火山語音,長期以來面向字節(jié)跳動各大業(yè)務線以及火山引擎ToB行業(yè)與創(chuàng)新場景,提供全球領先的AI語音技術能力以及卓越的全棧語音產(chǎn)品解決方案,包括音頻理解、音頻合成、虛擬數(shù)字人、對話交互、音樂檢索、智能硬件等。目前團隊的語音識別和語音合成覆蓋了多種語言和方言,多篇技術論文入選各類AI 頂級會議,為抖音、剪映、飛書、番茄小說、Pico等業(yè)務提供了領先的語音能力,并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設備等多樣化場景,通過火山引擎開放給外部企業(yè)。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼