第二代XDNA NPU架構(gòu):XDNA NPU 2引入了全新的Block FP16 (BF16)浮點(diǎn)精度,其AI引擎性能是第二代 AMD 銳龍 AI 的三倍,是目前唯一可提供 50 TOPS 的AI 處理性能的產(chǎn)品。
2017年7月份,Purley的新一代服務(wù)器平臺,Purley平臺將產(chǎn)品型號命名方式由此前連續(xù)使用四代的E7/E5變?yōu)橹翉?qiáng)可擴(kuò)展處理器(Intel Xeon Scalable Processor,SP),系列型號按鉑金(Platinum)、金(Gold)、銀(Silver)、銅(Bronze)定義
AI Agent(人工智能體)是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動作的智能實(shí)體。不同于傳統(tǒng)的人工智能,AI Agent具備通過獨(dú)立思考、調(diào)用工具去逐步完成給定目標(biāo)的能力。
過去兩年中,VMware 一直在努力簡化其產(chǎn)品組合,并從永久模式過渡到訂閱模式,這種轉(zhuǎn)變符合行業(yè)發(fā)展趨勢,簡化用戶采購,更好地體現(xiàn)了采購成本與服務(wù)價(jià)值的關(guān)系。
國內(nèi)數(shù)據(jù)中心建設(shè)較全球起步晚,目前處于云中心深化階段,向智能算力中心轉(zhuǎn)型,總體處于成長期。
Venado 在西班牙語中的意思是鹿或雄鹿,也是新墨西哥州 Sangre de Cristo 山脈的一座山峰的名稱,這就是新機(jī)器得名的地方。正如您所預(yù)料的那樣,Hewlett Packard Enterprise 是該系統(tǒng)的主要承包商,并且正如我們所預(yù)期的那樣,該系統(tǒng)沒有使用 Nvidia 為制造共享內(nèi)存 GPU 的超級 Pod 而創(chuàng)建的 GPU NVLink Switch 共享內(nèi)存互連。
在馮諾依曼架構(gòu)下,計(jì)算機(jī)可以抽象為存儲器、控制器、輸入以及輸出設(shè)備。存儲器分為內(nèi)部存儲器和外部存儲器,程序在未運(yùn)行時(shí)存儲在外部存儲器中,而在運(yùn)行時(shí)則是加載到內(nèi)部存儲器中進(jìn)行各種運(yùn)算和處理。
AI對云廠商資本開支需求的拉動始于2023年四季度,據(jù)一季度各大云廠商的資本開支及指引,預(yù)計(jì)2024年北美云商資本開支有望重回高速增長態(tài)勢。
InfiniBand 和RoCEv2 這兩種網(wǎng)絡(luò)架構(gòu)在性能、成本、通用性等多個關(guān)鍵維度上展現(xiàn)出各自的優(yōu)勢,相互競爭。我們將細(xì)致分析這兩種架構(gòu)的技術(shù)特性、它們在 AI 智算網(wǎng)絡(luò)中的應(yīng)用場景,以及各自的優(yōu)勢和局限性。
通過加快產(chǎn)品迭代,英偉達(dá)保持產(chǎn)品性能優(yōu)勢,且生成單個Token 功耗大幅降低。在各大 GPU 廠商新推出的產(chǎn)品中,英偉達(dá) Blackwell在性能上高于 AMD 的 Instinct MI325X 和谷歌的 Trillium 芯片。
網(wǎng)絡(luò)拓?fù)浼阂?guī)模宏大,集成了超過10,000個GPU,依托一個精心設(shè)計(jì)的三層類CLOS網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)高效互聯(lián)。
NVIDIA Grace Hopper 超級芯片架構(gòu)將 NVIDIA Hopper GPU 的開創(chuàng)性性能與 NVIDIA Grace CPU 的多功能性結(jié)合在一起,在單個超級芯片中連接了高帶寬和內(nèi)存相關(guān) NVIDIA NVLink Chip-2-Chip (C2C) 互連,并支持新的 NVIDIA NVLink Switch System 。
2024 年初,我們當(dāng)前一代云原生處理器系列看起來是這樣的,AMD EPYC Bergamo 和 Ampere Altra Max 有兩個 128 核選項(xiàng)。
NVIDIA DGX SuperPOD是下一代數(shù)據(jù)中心人工智能(AI)架構(gòu)。旨在提供AI模型訓(xùn)練、推理、高性能計(jì)算(HPC)和混合應(yīng)用中的高級計(jì)算挑戰(zhàn)所需的計(jì)算性能水平,以提高預(yù)測性能和解決方案的時(shí)間。
大模型訓(xùn)練任務(wù)對于網(wǎng)絡(luò)要求苛刻,34%的訓(xùn)練中斷是由網(wǎng)絡(luò)引起。RDMA的丟包重傳機(jī)制將導(dǎo)致帶寬利用率快速降低,當(dāng)丟包率達(dá)到千分之1時(shí),訓(xùn)練效率降低明顯;
智算平臺面臨著前所未有的挑戰(zhàn)和機(jī)遇。通過技術(shù)創(chuàng)新和持續(xù)優(yōu)化,可以有效提升智算平臺在大模型場景下的性能和穩(wěn)定性,推動AI技術(shù)的快速發(fā)展。
文章討論了系統(tǒng)軟件研究的動力,強(qiáng)調(diào)了應(yīng)用需求和硬件能力的重要性,并提到了算力硬件調(diào)度與管理的探索。文中還涉及了光網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)中心、CPU技術(shù)發(fā)展等內(nèi)容,并提供了相關(guān)技術(shù)資料的獲取方式。
算力需求爆發(fā)式增? vs. 算力硬件演進(jìn)呈現(xiàn)領(lǐng)域化、規(guī)模化、異構(gòu)化特征,應(yīng)用的算力外需求驅(qū)動操作系統(tǒng)在調(diào)度機(jī)制上突破,新算力硬件體系對調(diào)度機(jī)制造成了多方面的挑戰(zhàn)。
不同計(jì)算進(jìn)程間數(shù)據(jù)共接收端,容易出現(xiàn)“受害者流量”。AI 推理集群必然會出現(xiàn)多個負(fù)載處理多個用戶需求或多條并發(fā)請求的情況,不同負(fù)載由不同端口輸出數(shù)據(jù),傳輸路徑上有共用的葉、脊交換機(jī),則共接收端的“多傳一”(Many-To-One)現(xiàn)象容易出現(xiàn)網(wǎng)絡(luò)背壓、擁塞傳播甚至丟包。
用于連接 GPU 服務(wù)器中的 8 個 GPU 的 NVLink 交換機(jī)也可以用于構(gòu)建連接 GPU 服務(wù)器之間的交換網(wǎng)絡(luò)。Nvidia 在 2022 年的 Hot Chips 大會上展示了使用 NVswitch 架構(gòu)連接 32 個節(jié)點(diǎn)(或 256 個 GPU)的拓?fù)浣Y(jié)構(gòu)。由于 NVLink 是專門設(shè)計(jì)為連接 GPU 的高速點(diǎn)對點(diǎn)鏈路,所以它具有比傳統(tǒng)網(wǎng)絡(luò)更高的性能和更低的開銷。