從“夕發(fā)朝至”到“智算為王”:智算平臺(tái)成企業(yè)“大模型”時(shí)代成功關(guān)鍵
長期以來,人工智能與超級(jí)計(jì)算似乎是兩個(gè)獨(dú)立的領(lǐng)域。然而,隨著大模型訓(xùn)練對(duì)算力需求的指數(shù)級(jí)增長,二者之間的界限逐漸模糊。并行科技董事長陳健一針見血地指出:“AI訓(xùn)練的本質(zhì)就是超算,超算也并不僅僅是CPU的超級(jí)計(jì)算機(jī)。超算架構(gòu)、以GPU為核心的算力平臺(tái)成為大模型訓(xùn)練的必備基礎(chǔ)設(shè)施。”
人工智能的浪潮洶涌而來,大模型如同一座座拔地而起的數(shù)字高峰,預(yù)示著一個(gè)全新時(shí)代的到來。然而企業(yè)構(gòu)建這些高峰的基石,卻是一個(gè)常常被忽視的名字——智算平臺(tái)。如同GPT-4的誕生離不開強(qiáng)大的算力支撐,大模型的訓(xùn)練和推理都需要一個(gè)高效、穩(wěn)定的智算平臺(tái)作為基石。這其中既蘊(yùn)藏著巨大的機(jī)遇,也充滿了挑戰(zhàn)與困惑。
長期以來,人工智能與超級(jí)計(jì)算似乎是兩個(gè)獨(dú)立的領(lǐng)域。然而,隨著大模型訓(xùn)練對(duì)算力需求的指數(shù)級(jí)增長,二者之間的界限逐漸模糊。并行科技董事長陳健一針見血地指出:“AI訓(xùn)練的本質(zhì)就是超算,超算也并不僅僅是CPU的超級(jí)計(jì)算機(jī)。超算架構(gòu)、以GPU為核心的算力平臺(tái)成為大模型訓(xùn)練的必備基礎(chǔ)設(shè)施。”然而,傳統(tǒng)的云服務(wù)平臺(tái)在面對(duì)大模型訓(xùn)練時(shí)卻顯得力不從心,其根源在于未能解決算力卡之間性能的問題,導(dǎo)致通信占比過高,無法滿足大模型對(duì)算力的極致追求。
并行科技董事長陳健
“夕發(fā)朝至”,智算推動(dòng)的創(chuàng)新
賽力斯汽車平臺(tái)技術(shù)體系總監(jiān)石蕩赫表示:“計(jì)算機(jī)輔助工程(CAE)的廣泛應(yīng)用讓車企能在碰撞安全、強(qiáng)度耐久、震動(dòng)、測試、生態(tài)、自動(dòng)駕駛等方面實(shí)現(xiàn)全面創(chuàng)新,而這些需要足夠智算的支持。”
這從另一個(gè)角度揭示了企業(yè)在算力需求上出現(xiàn)了根本性的轉(zhuǎn)變。賽力斯為實(shí)現(xiàn)“夕發(fā)朝至”的目標(biāo)——即工程師在下班前提交計(jì)算任務(wù),第二天早上就能獲得計(jì)算結(jié)果,不僅需要滿足企業(yè)的全量業(yè)務(wù)需求,也要釋放原來可能不敢想象的潛在業(yè)務(wù)需求,還要滿足高效的開發(fā)要求。賽力斯與并行科技合作打造了基于混合彈性云架構(gòu)的高性能計(jì)算平臺(tái),這一平臺(tái)整合了集團(tuán)內(nèi)部算力資源,并結(jié)合自研的智能化仿真平臺(tái),實(shí)現(xiàn)了云端資源的統(tǒng)一調(diào)度。
陳健客觀地總結(jié)道:“工程計(jì)算比科學(xué)計(jì)算復(fù)雜度高很多,對(duì)算力需求上用戶不光考慮能不能算出來,性能好不好,它更多考慮的是快速響應(yīng)的能力,這將直接影響企業(yè)新產(chǎn)品的上市周期。”
從“超算”到“智能超算”,用戶關(guān)注極致性價(jià)比
面對(duì)大模型訓(xùn)練帶來的算力挑戰(zhàn),傳統(tǒng)的超算平臺(tái)顯然無法滿足需求。陳健提出了“智能超算”的概念,即面向人工智能的超算。他認(rèn)為,超算用戶最關(guān)心的并非是能否完成計(jì)算,而是能否以最快的速度、以最低成本完成計(jì)算。
在大模型訓(xùn)練的兩個(gè)主要場景——訓(xùn)練(預(yù)訓(xùn)練、微調(diào))和推理中,不同的算力平臺(tái)展現(xiàn)出不同的優(yōu)勢。H100憑借其強(qiáng)大的計(jì)算能力成為大規(guī)模訓(xùn)練的首選,而4090則憑借其優(yōu)異的訪存性能在中、大規(guī)模推理中占據(jù)優(yōu)勢,但只有24G顯存卻只適合較小的模型推理,中、大規(guī)模的推理H20更適合。而昇騰系列則憑借其高性價(jià)比在大模型訓(xùn)練領(lǐng)域嶄露頭角。
并行科技通過多年的超算經(jīng)驗(yàn),總結(jié)出了一套獨(dú)特的應(yīng)用運(yùn)行特征分析方法:通過高精度、低負(fù)載采集數(shù)據(jù),分析應(yīng)用類型,并根據(jù)用戶應(yīng)用預(yù)測不同算力平臺(tái)的性能表現(xiàn),以此優(yōu)化、適配算力資源,以實(shí)現(xiàn)最具性價(jià)比的大模型/算力匹配。例如,通過分析預(yù)測出H20與H100計(jì)算性能差了6倍,但在推理方面H20性能與H100相當(dāng),而實(shí)際測試結(jié)果也證實(shí)了這一預(yù)測的準(zhǔn)確性。
智算平臺(tái),未來已來
大模型的出現(xiàn),將人工智能推向了一個(gè)新的高度,也對(duì)算力平臺(tái)提出了更高的要求。從“超算”到“智能超算”,不僅是技術(shù)上的升級(jí),更是理念上的轉(zhuǎn)變。未來的智算平臺(tái),需要具備更高的性能、更低的成本、更智能的調(diào)度能力,才能滿足大模型訓(xùn)練和推理的苛刻需求。
陳健指出,未來智算平臺(tái)將成為大模型時(shí)代的核心基礎(chǔ)設(shè)施。如同電力和網(wǎng)絡(luò)一樣,智算平臺(tái)將成為支撐企業(yè)大模型應(yīng)用和發(fā)展的基礎(chǔ)設(shè)施。“算力+算法”將成為大模型競爭的關(guān)鍵。企業(yè)僅有強(qiáng)大的算力還不夠,還需要與之匹配的算法和模型才能發(fā)揮出最大效能。擁有“算力+算法”雙重優(yōu)勢的企業(yè)將在競爭中脫穎而出。智算平臺(tái)將推動(dòng)人工智能應(yīng)用的普及和發(fā)展。隨著智算平臺(tái)的不斷發(fā)展和完善,人工智能應(yīng)用的門檻將進(jìn)一步降低,更多的企業(yè)和個(gè)人將能夠享受到人工智能帶來的便利。
大模型時(shí)代已經(jīng)到來,智算平臺(tái)作為其基石,必將在未來的發(fā)展中扮演更加重要的角色。算力企業(yè)與行業(yè)客戶在業(yè)務(wù)上的緊密融合,憑借各自豐富的經(jīng)驗(yàn)和前瞻性技術(shù),將在這一波浪潮中乘風(fēng)破浪,引領(lǐng)我國各行業(yè)向“新質(zhì)生產(chǎn)力”方向健康發(fā)展。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼