x86指令集為了保持二進(jìn)制的兼容性,即:上一代芯片的應(yīng)用程序仍然能運(yùn)行在下一代芯片中,使之前后系列的芯片成為一個“系列機(jī)”,擴(kuò)展了許多新的指令,導(dǎo)致x86指令集的規(guī)模不斷膨脹。
近日,GeekBench 6.2數(shù)據(jù)庫里出現(xiàn)了一顆新的海光處理器,檢測編號C86-4G,實際型號C86-3490,與現(xiàn)有8核心的C86-3350同樣屬于C86-3000系列,顯然架構(gòu)是相通的。
富士通的 Monaka 是一款巨大的 CoWoS 系統(tǒng)級封裝 (SiP),它有四個 36 核計算小芯片,采用臺積電的 N2 工藝技術(shù)制造,包含 144 個基于 Armv9 的增強(qiáng)型內(nèi)核,這些內(nèi)核以面對面 (F2F) 的方式堆疊在 SRAM 塊頂部,使用混合銅鍵合 (HCB)。
AI 訓(xùn)練集群帶來 GPU 互聯(lián)需求,新增后端網(wǎng)絡(luò)組網(wǎng)需求。AI 服務(wù)器比傳統(tǒng)服務(wù)器新增 GPU 模組,GPU 模組通過對應(yīng)的網(wǎng)卡與其他服務(wù)器或交換機(jī)互聯(lián),實現(xiàn)各節(jié)點(diǎn)之間的通信。因此相比傳統(tǒng)網(wǎng)絡(luò)架構(gòu),AI 服務(wù)器組網(wǎng)增加后端網(wǎng)絡(luò)組網(wǎng)(Back End),增加了每臺服務(wù)器的網(wǎng)絡(luò)端口數(shù)量,拉動對高速交換機(jī)、網(wǎng)卡、光模塊、光纖光纜等組件需求。
為了縮短訓(xùn)練時間,就需要采用多機(jī)多卡并行的方式,通過采用分布式訓(xùn)練技術(shù),對模型和數(shù)據(jù)進(jìn)行切分,進(jìn)而并行加速,將訓(xùn)練市場縮短到周或天的級別。
以太網(wǎng)的起源可以追溯到 1973 年,梅特卡夫發(fā)明了基于 Aloha 網(wǎng)絡(luò)的新系統(tǒng),改進(jìn)了 Aloha 可隨意訪問共享通信信道的機(jī)制,能夠把任何計算機(jī)連接起來,實現(xiàn)計算機(jī)之間的數(shù)據(jù)傳輸,該系統(tǒng)被其命名為以太網(wǎng)。
在高性能GPU計算的領(lǐng)域內(nèi),關(guān)鍵組件如CPU、內(nèi)存模塊、NVMe存儲設(shè)備、GPU以及網(wǎng)絡(luò)適配器等通過PCIe(外設(shè)部件互連標(biāo)準(zhǔn))總線或?qū)iT設(shè)計的PCIe交換機(jī)芯片實現(xiàn)高效順暢的連接。
AI服務(wù)器產(chǎn)業(yè)鏈上游為零部件,包括CPU、GPU、存儲芯片、固態(tài)硬盤、PCB、被動元器件等;中游為AI服務(wù)器;下游為各類應(yīng)用市場,包括互聯(lián)網(wǎng)企業(yè)、云計算企業(yè)、數(shù)據(jù)中心服務(wù)商、政府部門、金融機(jī)構(gòu)、醫(yī)療領(lǐng)域、電信運(yùn)營商等。
FPGA,即現(xiàn)場可編程門陣列,它是在PAL、GAL、CPLD等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。
Infiniband的協(xié)議采用分層結(jié)構(gòu),各個層次之間相互獨(dú)立,下層為上層提供服務(wù)。其中,物理層定義了在線路上如何將比特信號組 成符號,然后再組成幀、 數(shù)據(jù)符號以及包之間的數(shù)據(jù)填 充等,詳細(xì)說明了構(gòu)建有效包的信令協(xié)議等;鏈路層定義了數(shù)據(jù)包的格式以及數(shù)據(jù)包操作的協(xié)議,如流控、 路由選擇、 編碼、解碼等;網(wǎng)絡(luò)層通過在數(shù)據(jù)包上添加一個40字節(jié)的全局的路由報頭(Global Route Header,GRH)來進(jìn)行路由的選擇,對數(shù)據(jù)進(jìn)行轉(zhuǎn)發(fā)。
AIDC的基本架構(gòu)可以劃分為多個層次和組成部分。在總體架構(gòu)上,AIDC可以被劃分為基礎(chǔ)設(shè)施層、平臺管理層、大模型開發(fā)平臺層,以及行業(yè)應(yīng)用層,如圖所示。
GPU應(yīng)用已深刻影響各類業(yè)務(wù)(搜廣推、音視頻、MMU、風(fēng)控等)場景,快手內(nèi)部GPU在線服務(wù)及離線訓(xùn)練任務(wù)均完成云原生化遷移。
2023年中國信創(chuàng)產(chǎn)業(yè)規(guī)模達(dá)20961.9億元,2027年有望達(dá)到37011.3億元,中國信創(chuàng)市場正釋放出前所未有的活力。數(shù)據(jù)顯示,2024年中國國產(chǎn)PC整機(jī)市場規(guī)模將達(dá)5182.3億元,中國協(xié)同辦公市場規(guī)模將達(dá)370.7億元。
GPU主宰算力芯片,Al信創(chuàng)驅(qū)動國產(chǎn)算力發(fā)展:得益于硬件支持與軟件編程、設(shè)計方面的優(yōu)勢,CPU+GPU成為了目前應(yīng)用最廣泛的平臺。Al分布式計算的市場主要由算力芯片(55-75%)、內(nèi)存(10-20%)和互聯(lián)設(shè)備(10-20%)三部分組成。
Al芯片是AI服務(wù)器算力的核心,專門用于處理人工智能應(yīng)用中的大量計算任務(wù),Al芯片按架構(gòu)可分為GPU、FPGA、ASIC和NPU等。HBM作為內(nèi)存產(chǎn)品的一種,已經(jīng)成為高端GPU標(biāo)配,可以理解為與CPU或SoC對應(yīng)的內(nèi)存層級,將原本在PCB板上的DDR和GPU芯片同時集成到SiP封裝中,使內(nèi)存更加靠近GPU,使用HBM可以將DRAM和處理器(CPU,GPU以及其他ASIC)之間的通信帶寬大大提升,從而緩解這些處理器的內(nèi)存墻問題。
TPU 的設(shè)定,只能在 TensorFlow 中執(zhí)行推理,但它的性能非常好。我們認(rèn)為,TPU 與 TensorFlow 的良好適配,能夠發(fā)揮出 1+1>2 的效果。深度學(xué)習(xí)計算中的芯片部署都不是零和博弈,F(xiàn)實世界的深度學(xué)習(xí)網(wǎng)絡(luò)需要系統(tǒng)的 GPU 與其他 GPU 或諸如 Google TPU 之類的 ASIC 通信。GPU 是理想的工作環(huán)境,具有深度學(xué)習(xí)所需的靈活性
GPU可以用于圖形渲染,GPU 作為加速圖形繪制的芯片時,它主要面向的產(chǎn)品主要是會集中在 PC 和游戲兩個市場。也能夠用于高性能計算領(lǐng)域(GPGPU)和編解碼場景(子模塊)等。
GB200主板從HGX模式變?yōu)镸GX,HGX是NVIDIA推出的高性能服務(wù)器,通常包含8個或4個GPU,MGX是一個開放模塊化服務(wù)器設(shè)計規(guī)范和加速計算的設(shè)計,在Blackwell系列大范圍使用。MGX模式下,GB200 Switch tray主要為工業(yè)富聯(lián)生產(chǎn),Compute Tray為緯創(chuàng)與工業(yè)富聯(lián)共同生產(chǎn),交付給英偉達(dá)。據(jù)Semianalysis,有望帶來機(jī)柜集成、HBM、銅連接、液冷等四個市場價值量2-10倍提升。
在傳統(tǒng)數(shù)據(jù)傳輸方案中,內(nèi)存數(shù)據(jù)訪問和網(wǎng)絡(luò)數(shù)據(jù)傳輸分屬兩套語義集合。數(shù)據(jù)傳輸中CPU承擔(dān)了大量工作。應(yīng)用程序先申請資源,再通知Socket,內(nèi)核態(tài)驅(qū)動程序完成TCP/IP報文封裝,最后由NIC的網(wǎng)絡(luò)接口發(fā)送到對端。數(shù)據(jù)在發(fā)送節(jié)點(diǎn)需要依次經(jīng)過Application Buffer、Socket Buffer、Transfer Protocol buffer。到達(dá)接收節(jié)點(diǎn)后同樣需經(jīng)過多次反向內(nèi)存拷貝,內(nèi)核態(tài)驅(qū)動程序完成TCP/IP報文解封裝,應(yīng)用程序最終將數(shù)據(jù)寫入系統(tǒng)物理內(nèi)存。
AI芯片通常采用GPU和ASIC架構(gòu)。GPU因其在運(yùn)算和并行任務(wù)處理上的優(yōu)勢成為AI計算中的關(guān)鍵組件,它的算力和顯存、帶寬決定了GPU的運(yùn)算能力。GPU的核心可分為CudaCore、Tensor Core等;Tensor Core是增強(qiáng)AI計算的核心,相較于并行計算表現(xiàn)卓越的Cuda Core,它更專注于深度學(xué)習(xí)領(lǐng)域,通過優(yōu)化矩陣運(yùn)算來加速AI深度學(xué)習(xí)的訓(xùn)練和推理任務(wù)