憑借全新A100產(chǎn)品線,英偉達欲徹底改變計算世界
數(shù)據(jù)中心架構即將迎來重大變化
隨著越來越多的業(yè)務與AI工作負載被遷移至云端,用戶對于計算資源的需求自然也隨之產(chǎn)生變化。如今的數(shù)據(jù)中心必須將近乎無限的資源容量與極低的處理延遲結合起來。正是這些現(xiàn)實要求,驅(qū)動著ARM、英特爾以及英偉達等技術供應商不斷創(chuàng)造新的芯片設計方案與軟件平臺,用以支持高性能計算用例。
對供應商來說,其中顯然蘊藏著巨大的市場機遇。根據(jù)統(tǒng)計機構做出的預測,到2025年,全球數(shù)據(jù)中心芯片市場總額將增長至156.4億美元,達到2017年的兩倍。而從英偉達的GTC大會中也可以看出,這家公司希望乘此東風進一步提升自身市場份額。沒錯,除了廣為人知的游戲圖形處理單元之外,英偉達公司也一直在為數(shù)據(jù)中心提供計算技術支持。
GPU的使用范圍不再僅限于AI訓練
我們主要聊聊人工智能,因為這項技術目前代表著數(shù)據(jù)中心內(nèi)計算強度最高的工作負載類型。大多數(shù)企業(yè)將英偉達GPU視為利用大型數(shù)據(jù)集訓練AI模型時的首選計算資源。事實上,英偉達也確實在這部分市場上取得了巨大成功。包括沃爾瑪在內(nèi)的諸多企業(yè)都用實際行動為英偉達GPU投下了神圣一票。
但是,訓練絕不是AI計算的全部。廣義上講,機器學習分為多個階段,具體包括數(shù)據(jù)準備、模型訓練與推理、以及將模型實際部署至生產(chǎn)環(huán)境等。推理階段的核心,是使用經(jīng)過訓練的模型推斷結果或者結論。如果說訓練是AI計算流程中的高性能環(huán)節(jié),那么推理階段則是企業(yè)實際使用訓練模型的環(huán)節(jié)。目前,大部分推理工作都在英特爾CPU上進行。
GPU成本高昂,而且業(yè)界普遍認為其無法帶來適合推理場景的低廉價格。但在最近的GTC大會上,英偉達展示了其最新GPU成果如何加快整個機器學習流程,希望借此扭轉人們的傳統(tǒng)觀念。如前所述,以往的GPU在處理機器學習中的計算密集型訓練任務時表現(xiàn)出色,但在推理階段卻顯得有些大材小用。同時,企業(yè)客戶還迫切希望在高端數(shù)據(jù)處理領域獲得性能更強的芯片解決方案。
英偉達A100:一套靈活的GPU設計方案
英偉達推出基于Ampere架構的新型數(shù)據(jù)中心芯片
英偉達公司此次推出的A100屬于第八代GPU設計,同時也是第一款基于Ampere架構以滿足各類實際需求的產(chǎn)品。A100是一款專為數(shù)據(jù)中心高性能計算與推理場景設計的多實例GPU,其速度與上代Volta架構相比提升了20倍,搭載540億個晶體管與第三代Tensor Cores。
有趣的是,這款芯片采用高靈活度設計,可在單一芯片上同時支持訓練與推理類工作負載。A100能夠高效擴展至數(shù)千GPU并連,也可以使用英偉達多實例GPU(MIG)技術劃分出7個GPU實例以加速不同規(guī)模的工作負載。接下來就是問題的關鍵:每個人都清楚,英偉達GPU一直是大型模型訓練領域的寵兒——但訓練絕不是人工智能市場的全部。
推理工作負載在AI領域中的占比一直不斷提升,也讓英特爾等廠商賺了個盆滿缽滿。為了獲得長期成功,英偉達必須拿出一套能夠搞定人工智能中推理部分的解決方案。但英偉達的野心顯然不止于此,他們決定改變數(shù)據(jù)中心、改變計算世界的格局。
改變數(shù)據(jù)中心,改變計算世界
英偉達還在大會上談到將數(shù)據(jù)中心作為新的計算單元。EGX A100卡中封裝有一塊基于A100 Ampere的GPU,外加卡載Mellanox ConnectX-6 Dx NIC。二者相結合,相當于將聯(lián)網(wǎng)功能與A100 GPU加以融合,進一步消除了不必要的額外步驟與延遲因素。
根據(jù)英偉達方面的介紹,其第三代Tensor Cores能夠加速各類工作負載,并帶來高達6倍的開箱即用性能水平。同時,對稀疏結構的支持又進一步將性能提升2倍,使得A100的推理表現(xiàn)再度升級。而對于不那么關心芯片本體的從業(yè)者來說,英偉達還在EGX A100卡上提供可隨意伸縮以支持不同計算類型的性能解決方案,并通過Mellanox網(wǎng)絡增強數(shù)據(jù)的智能移動能力。
需要強調(diào)的是,將數(shù)據(jù)中心視為新的計算單元是個宏大且意義非凡的愿景。這一概念,使得開發(fā)人員能夠設計出延遲更低、且在本質(zhì)上具備巨大可擴展能力的系統(tǒng)。越來越多的企業(yè)希望立足云端為用戶提供AI與機器學習功能,這意味著數(shù)據(jù)中心功能也必須實現(xiàn)快速擴展。此外,對各類軟件工具的支持效果同樣非常重要,因此英偉達方面公布了Merlin等一系列工具。英偉達利用這些工具打造出新的平臺,意在簡化復雜機器學習管道(例如推薦系統(tǒng))的架構模式,同時提供一套整體框架以實現(xiàn)對話式AI。
其他芯片供應商是否會緊跟其后?是的,而且不僅如此
英偉達的最新公告至少幫助其在短期之內(nèi)占得性能層面的至高點。但問題是,英偉達解決方案的推理成本雖然有所降低,但仍然不夠便宜。當然,在數(shù)據(jù)密集型行業(yè)當中,性能上的突破也許才是最重要、也是客戶們最關心的動態(tài)。從這個角度看,英偉達已經(jīng)獲得了巨大勝利。那么他們能否借此一役占據(jù)數(shù)據(jù)中心芯片市場的最大份額?我們不清楚,但英特爾肯定不會坐視這種情況的發(fā)生。
當前,我們?nèi)蕴幱跇嫿ㄎ磥鞟I基礎設施的摸索初期,希望英偉達帶來的新產(chǎn)品能夠吸引到數(shù)據(jù)中心供應商們的關注。英偉達確實選擇了非常完美的入市時機,如今的世界確實需要更多先進技術以支撐起更完善的高性能計算體系。Ampere 100以及對Mellanox的收購,已經(jīng)成為英偉達打造下一代數(shù)據(jù)中心宏愿中的重要里程碑。英偉達這種以平臺為先導的發(fā)展思路也相當明智,畢竟從長遠來看,得平臺者方能得天下。
本文章選自《數(shù)字化轉型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
