Habana Labs憑什么“叫板”英偉達(dá)?
計(jì)算力的突破是引燃如今這一輪人工智能發(fā)展熱潮的最關(guān)鍵因素。而這,也使得人工智能芯片領(lǐng)域近幾年來(lái)逐漸成了群雄逐鹿的重要“戰(zhàn)場(chǎng)”。雖然包括英特爾、谷歌、蘋果、華為、百度等在內(nèi)的國(guó)內(nèi)外各大科技巨頭不斷涌入,但從AI推理預(yù)測(cè)到AI訓(xùn)練,截至目前,英偉達(dá)的地位似乎仍然難以被撼動(dòng)。
即便如此,面對(duì)這樣一個(gè)百億級(jí)規(guī)模的市場(chǎng),充滿“野心”的企業(yè)還是不在少數(shù),甚至有不少初后起之秀直接“叫板”英偉達(dá)。Habana Labs正是其中之一。
成立于2016年,Habana Labs最初的業(yè)務(wù)是開(kāi)發(fā)專為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和生產(chǎn)環(huán)境中的推理部署而優(yōu)化的處理器平臺(tái)。2018年,Habana Labs發(fā)布了第一款產(chǎn)品,即AI推理處理器「Goya」;9個(gè)月后,Habana Labs又宣布推出AI訓(xùn)練處理器「Gaudi」,不斷完善自己的產(chǎn)品版圖。
在本周的媒體溝通會(huì)上,Habana Labs首席商務(wù)官Eitan Medina介紹,其團(tuán)隊(duì)成員主要是來(lái)自處理器、DSP、系統(tǒng)設(shè)計(jì)以及網(wǎng)絡(luò)設(shè)計(jì)等領(lǐng)域全球知名企業(yè)的精英,能夠支持Habana Labs從軟件到硬件的研發(fā)需求。同時(shí),他還直接“放話”—— 要做人工智能芯片產(chǎn)業(yè)的領(lǐng)導(dǎo)者。而其底氣,就是Goya和Gaudi兩款產(chǎn)品。
Habana Labs首席商務(wù)官Eitan Medina
AI推理處理器「Goya」:強(qiáng)大性能與高性價(jià)比并存
據(jù)了解,Goya是一款基于PCle的雙槽位處理器,可基于ResNet-50推理基準(zhǔn)實(shí)現(xiàn)每秒15,000張圖片的吞吐量,延遲時(shí)間僅為1.3毫秒, 功耗僅為100瓦。它主要用于傳統(tǒng)服務(wù)器環(huán)境,提供推理和預(yù)測(cè)支持。
“這些數(shù)字與英偉達(dá)最新的GPU產(chǎn)品T4相比,性能上是其3倍,能耗上是其1/2,而延時(shí)也更低?梢哉f(shuō),我們幾乎可以做到實(shí)時(shí)的圖片處理。”Eitan Medina表示。
如何做到?Eitan Medina向記者解釋,無(wú)論是GPU還是CPU,其架構(gòu)都是面向通用計(jì)算或常用圖形處理而設(shè)計(jì)的,因此在人工智能的計(jì)算工作中并不具備優(yōu)勢(shì)。而Goya則是完全針對(duì)人工智能需求進(jìn)行的架構(gòu)設(shè)計(jì),這一獨(dú)特架構(gòu)稱為“Tensor processor core”,能夠讓Goya支持不通的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)而處理不同的數(shù)據(jù)類型。這就是Goya能夠提供如此高性價(jià)比的原因之一。
深度學(xué)習(xí)中Batch Size(批尺寸,即一次訓(xùn)練所選取的樣本數(shù))的大小直接會(huì)影響到處理器的性能。在GPU中,為了實(shí)現(xiàn)其最高性能,需要將這一數(shù)值設(shè)置得很大,大量數(shù)據(jù)在同一時(shí)間并行處理,這將無(wú)形造成計(jì)算的延遲。而Goya則可以將Batch Size設(shè)置為1,這意味著它可以一次處理1張圖片,并且每秒鐘處理超過(guò)7000張圖片。這樣的性能優(yōu)勢(shì),使得它可以被應(yīng)用于自動(dòng)駕駛等對(duì)計(jì)算延遲要求極高的領(lǐng)域。
除此之外,在云計(jì)算場(chǎng)景中,Goya還可以做到多個(gè)用戶共享單卡,從而降低用戶的使用成本,讓用戶以更低價(jià)格享受更好的產(chǎn)品體驗(yàn)。
總的來(lái)說(shuō),Goya優(yōu)勢(shì)有三:一是強(qiáng)大的計(jì)算能力,二是高性價(jià)比,三是可以實(shí)現(xiàn)多用戶之間的計(jì)算資源共享。“當(dāng)然,基于ResNet-50的測(cè)試只是我們眾多性能測(cè)試的其中之一,除此之外我們還做了很多比較通用的模型測(cè)試,可以看到,在這些測(cè)試中,Goya也表現(xiàn)出了強(qiáng)大的性能優(yōu)勢(shì)。”Eitan Medina 強(qiáng)調(diào)說(shuō)。
據(jù)他介紹,Goya還為用戶提供了一套名為Synapse AI的軟件環(huán)境。SynapseAI軟件棧包含一個(gè)豐富的內(nèi)核庫(kù)和開(kāi)放工具鏈,以供用戶添加專有內(nèi)核。借此,用戶不僅可以直接部署模型、進(jìn)行定制化操作,同時(shí)還能幫助使用CPU和GPU的用戶快速、輕松、準(zhǔn)確地將之前的工作部署到Goya上。
AI訓(xùn)練處理器「Gaudi」:實(shí)現(xiàn)本地以太網(wǎng)擴(kuò)展
再來(lái)看一下最新發(fā)布的人工智能訓(xùn)練處理器Gaudi。
Gaudi是一款完全可編程且可定制的處理器,搭載基于第二代Tensor處理核 (TPC™) 并集成開(kāi)發(fā)工具、庫(kù)和編譯器;赗esNet-50,Gaudi可以提供每秒1650張的圖片處理能力——這是在業(yè)界單一處理器中最高的計(jì)算能力。同時(shí),Gaudi的創(chuàng)新架構(gòu)可以實(shí)現(xiàn)訓(xùn)練系統(tǒng)性能的近線性擴(kuò)展,即使是在較小Batch Size的情況下,也能保持高計(jì)算力。這意味著,基于Gaudi處理器的訓(xùn)練性能可以實(shí)現(xiàn)從單一設(shè)備擴(kuò)展至由數(shù)百個(gè)處理器搭建的大型系統(tǒng)的線性擴(kuò)展。
還是和英偉達(dá)的V100相比,基于ResNet-50基準(zhǔn)測(cè)試,Gaudi所表現(xiàn)出來(lái)的計(jì)算性能、功耗比和延遲時(shí)間仍然相當(dāng)出色,在速度上要比V100快3.8倍。比如,在性能方面,V100單卡大概每秒處理600多張圖片,而Gaudi單卡則可以處理1600多張;在功耗方面,V100處理600多張圖片的功耗達(dá)到了300瓦,而Gaudi處理1600多張圖片的功耗只有150瓦左右。在這方面,Gaudi創(chuàng)造了新的性能紀(jì)錄。
Gaudi與V100在性能方面的對(duì)比
除了性能,Gaudi還創(chuàng)造了人工智能訓(xùn)練領(lǐng)域的另一項(xiàng)“行業(yè)第一”。其處理器片上集成了 RDMA over Converged Ethernet (RoCE v2) 功能,能夠讓人工智能系統(tǒng)使用標(biāo)準(zhǔn)以太網(wǎng)擴(kuò)展至任何規(guī)模。借此,用戶還可以利用標(biāo)準(zhǔn)以太網(wǎng)交換進(jìn)行人工智能訓(xùn)練系統(tǒng)的縱向擴(kuò)展和橫向擴(kuò)展。同時(shí),以太網(wǎng)交換機(jī)已被數(shù)據(jù)中心應(yīng)用于計(jì)算系統(tǒng)和存儲(chǔ)系統(tǒng)的擴(kuò)展中,在速度和端口數(shù)方面可提供幾乎無(wú)限的可擴(kuò)展性。在這一方面,與Habana的標(biāo)準(zhǔn)設(shè)計(jì)相比,基于GPU的系統(tǒng)則依賴于專有的系統(tǒng)接口,對(duì)系統(tǒng)設(shè)計(jì)人員來(lái)說(shuō),這從本質(zhì)上已經(jīng)大大限制了其可擴(kuò)展性和選擇性。
另外,Habana Labs還推出了一款名為HLS-1的8-Gaudi系統(tǒng),配備了8個(gè)HL-205子卡、PCIe外部主機(jī)連接器和24個(gè)用于連接現(xiàn)有以太網(wǎng)交換機(jī)的100Gbps以太網(wǎng)端口,讓用戶能夠通過(guò)在19英寸標(biāo)準(zhǔn)機(jī)柜中部署多個(gè)HLS-1系統(tǒng)實(shí)現(xiàn)性能擴(kuò)展。
HLS-1
Eitan Medina介紹,Gaudi配備的是32GB HBM-2內(nèi)存,目前提供兩種規(guī)格:一種是HL-200 - PCIe卡,設(shè)有8個(gè)100Gb以太網(wǎng)端口;另一種是HL-205 - 基于OCP-OAM標(biāo)準(zhǔn)的子卡,設(shè)有10個(gè)100Gb以太網(wǎng)端口或20個(gè)50Gb以太網(wǎng)端口。
據(jù)悉,Habana Labs將于今年下半年面向特定客戶提供Gaudi的樣品。“通過(guò)這幾款產(chǎn)品的推出,我們的第一目的還是推動(dòng)人工智能芯片領(lǐng)域的進(jìn)一步發(fā)展,幫助這個(gè)領(lǐng)域中的用戶解決相關(guān)問(wèn)題,比如計(jì)算性能、效率、靈活性等等。”Eitan Medina表示。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
