深度學(xué)習(xí)的興起,正推動加速器技術(shù)的復(fù)興
在今天的商品環(huán)境之下,我們似乎已經(jīng)習(xí)慣于每一部智能手機、平板電腦、筆記本電腦、臺式機以及服務(wù)器都配備著相似度極高的小型芯片組。但回顧歷史,我們會發(fā)現(xiàn)整個計算世界曾經(jīng)擁有著高度多樣化的硬件“心臟”。如今,這種遺產(chǎn)仍然廣泛存在于超級計算這一特定領(lǐng)域之內(nèi),各種奇特的硬件努力壓榨著每一個可用的指令周期。隨著游戲與高強度圖形工作負載總量的激增,GPU形式的專用加速器硬件也開始呈現(xiàn)出標準化趨勢。更重要的是,深度學(xué)習(xí)的興起與指數(shù)級增長的復(fù)雜化與專業(yè)化工作負載推動著專業(yè)硬件的又一輪復(fù)興——這一次,企業(yè)將自主構(gòu)建芯片以盡可能多地提升效率與速度。
從谷歌的TPU到亞馬遜的Inferentia芯片,現(xiàn)代云計算企業(yè)幾乎都需要根據(jù)自身在AI前沿建立起的經(jīng)驗打造屬于自己的深度學(xué)習(xí)加速器。這些公司在很大程度上將自己的成果限制在內(nèi)部使用,不過也有谷歌這樣的技術(shù)巨頭將自己的TPU以“輕量化”Edge TPU的形式提供給外部用戶。
憑借著在GPU設(shè)計中積累到的豐富經(jīng)驗,英偉達公司的硬件長期以來一直是深度學(xué)習(xí)領(lǐng)域的中堅力量,而且從對原有GPU成果的復(fù)用轉(zhuǎn)向更積極的深度學(xué)習(xí)研發(fā)。
而如果以我所關(guān)注的統(tǒng)計指標出發(fā),世界各地的企業(yè)都在努力打造自己的定制化芯片設(shè)計以及COTS硬件組件,旨在進一步加速訓(xùn)練與推理流程,進而構(gòu)建起規(guī)模更大的學(xué)習(xí)模型。
與此同時,正如谷歌Edge TPU版本所帶來的明確信號,AI技術(shù)正日益走向市場前沿。我們正親眼見證著一系列AI應(yīng)用的實際落地,包括它們在精度、功耗與移動性等方面做出的不同需求權(quán)衡。
對于那些必須追求最高精度的應(yīng)用程序,用戶仍會將推理流程外包給云端,包括利用有線、4G或者無線連接將輸入數(shù)據(jù)流傳輸至GCP、AWS以及其它云服務(wù)供應(yīng)商進行處理。
然而,對于連續(xù)實時視頻處理(例如遠程監(jiān)控攝像機網(wǎng)絡(luò))場景而言,這種帶寬受限的解決方案無疑不夠?qū)嵱。這就意味著推理模型需要完全在本地設(shè)備上執(zhí)行。
部分廠商傾向于使用混合模型,即利用板載過濾機制對內(nèi)容進行初步識別,而后將復(fù)雜度較高的部分交由遠程計算資源處理。
功耗是此類應(yīng)用的主要限制性因素,要求設(shè)計者在原始處理能力、功耗與芯片產(chǎn)生的熱量之間進行認真權(quán)衡。
無人駕駛汽車對于深度學(xué)習(xí)硬件提出的要求更為嚴苛,對其固定窗口截止時間、高精度、高帶寬輸入以及低功耗特性都有著具體限定。而且,這一切都必須全面運行在車輛之上,而不可能將現(xiàn)場的數(shù)據(jù)重新發(fā)送回云端。
特斯拉公司已經(jīng)推出了專用型深度學(xué)習(xí)硬件,并宣稱其新型芯片代表著無人駕駛功能的未來。有趣的是,這場宣傳最終引發(fā)了特斯拉與其前供應(yīng)商英偉達之間的口水戰(zhàn)。
總而言之,新的AI硬件的激增以及越來越多企業(yè)選擇自主構(gòu)建推理設(shè)備,不禁讓我想到深度學(xué)習(xí)領(lǐng)域的浪潮是否只是又一場淘金熱。換言之,面對這么多未知數(shù)與漫長的開發(fā)周期,今天的前沿芯片是否可能會成為明年的電子垃圾?
總而言之,目前大部分與深度學(xué)習(xí)相關(guān)的工作負載仍然發(fā)生在云端,大多數(shù)企業(yè)的最佳選項可能是直接將他們的AI需求外包給體量巨大的商業(yè)云供應(yīng)商,從而輕松利用最新一代英偉達GPU硬件提供的全部優(yōu)質(zhì)資源與尖端設(shè)計。而從TPU與Inferentia芯片,到各類由其它公司發(fā)布的面向移動環(huán)境的低功耗硬件,云中心到邊緣位置正在逐步實現(xiàn)無縫對接。
在某些情況下,云廠商甚至能夠提供同樣的訓(xùn)練工作流程構(gòu)建起精度最高的模型,并允許客戶使用完全相同的工具與訓(xùn)練數(shù)據(jù)。這意味著用戶只需要單擊鼠標,即可在移動設(shè)備上使用低配置低功耗版本。
最重要的是,深度學(xué)習(xí)仍是一個動態(tài)化極高且快速發(fā)展的領(lǐng)域,云計算的支持能夠很好地隔離這種變化因素,確保企業(yè)客戶在無需擔(dān)心底層硬件的前提下構(gòu)建并運用最先進的模型。正如基于普通 CPU的云虛擬機能夠不斷迭代更強大的硬件而無需修改代碼一樣,云端深度學(xué)習(xí)服務(wù)將在云廠商的巨大投資中得到巨大提升,包括盡可能把不斷改進的加速器所帶來的復(fù)雜性挑戰(zhàn)抽象出來。例如,面向谷歌公司上一代TPU加速器構(gòu)建的代碼仍能夠在最新一代硬件上不加修改而直接運行,并在不改變代碼行、重新編譯或者任何重構(gòu)的情況下實現(xiàn)可觀的性能提升。
對于那些身處深度學(xué)習(xí)邊緣位置的從業(yè)者來說,當(dāng)前的云體系可能正是AI工作負載的最佳運行環(huán)境。而從世界上最強大的推理硬件,到面對硬件持續(xù)改進所必需的執(zhí)行穩(wěn)定性,再到由云到邊緣位置的領(lǐng)先無縫式軟件開發(fā)環(huán)境,圍繞深度學(xué)習(xí)建立起來的完整體系正在逐漸成型。
也許更重要的是,云環(huán)境確實是幫助世界一流AI企業(yè)完成研發(fā)工作的首選平臺。通過這一強大助力,AI“帝國”們將能夠立足云端推動深度學(xué)習(xí)領(lǐng)域的整體進步。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
