
大模型時(shí)代算力基礎(chǔ)設(shè)施如何構(gòu)建?浪潮信息給出答案!

浪潮信息通過千億參數(shù)規(guī)模的大模型創(chuàng)新實(shí)踐,已在算力集群構(gòu)建、算力調(diào)度部署、算法模型開發(fā)等方面,構(gòu)建起全棧領(lǐng)先的大模型算力系統(tǒng)解決方案,助力大模型訓(xùn)練開發(fā)。
AI大模型的快速發(fā)展,帶動全球AI算力市場需求的高速上漲。而隨著AI技術(shù)的不斷突破以及各種開源架構(gòu)的推進(jìn),算法模型和數(shù)據(jù)的壓力逐步降低,算力不足成了大模型廠商遇到的最大的問題。
據(jù)浪潮信息聯(lián)合IDC發(fā)布的《2022-2023中國人工智能計(jì)算力發(fā)展評估報(bào)告》,2022年中國智能算力規(guī)模將達(dá)到268.0EFLOPS,預(yù)計(jì)到2026年智能算力規(guī)模將進(jìn)入每秒十萬億億次浮點(diǎn)計(jì)算(ZFLOPS)級別,2021-2025年人工智能算力復(fù)合增長率將達(dá)52.3%。
動輒數(shù)千萬上億的算力資源投入,讓開發(fā)大模型的企業(yè)開始提出算力的使用效率問題。越來越多的大模型企業(yè)開始意識到,大模型行訓(xùn)練是一個(gè)復(fù)雜的系統(tǒng)工程。大模型算力平臺并不是算力的簡單堆積。
大模型給企業(yè)基礎(chǔ)設(shè)施帶來新挑戰(zhàn)
當(dāng)今,AI快速發(fā)展并在多行業(yè)落地,呈現(xiàn)出復(fù)雜化、多元化和巨量化的趨勢。不同的應(yīng)用場景對算力的要求不同,要評判算力基礎(chǔ)設(shè)施是否滿足需求,需要企業(yè)根據(jù)特定的AI技術(shù)場景和需求,綜合考慮算力基礎(chǔ)設(shè)施的性能與靈活易用性。
性能:算力的性能和規(guī)模是AI應(yīng)用的關(guān)鍵因素之一,需要評估算力的速度、性能和可擴(kuò)展性,以及支持的AI應(yīng)用場景規(guī)模,是不是能夠有效支撐AI業(yè)務(wù)的開展。
靈活性和可用性:隨著AI技術(shù)的復(fù)雜和多元化,企業(yè)要求綜合考量算力基礎(chǔ)設(shè)施的易用性,打造多元開放的算力基礎(chǔ)設(shè)施,以支持不同的操作系統(tǒng)、編程語言和框架,以及能夠與其他硬件和軟件進(jìn)行無縫集成的能力。算力基礎(chǔ)設(shè)施的兼容性越高,就能更好地支持各種應(yīng)用場景和算法,滿足飛速發(fā)展的AI創(chuàng)新應(yīng)用需求。
正是由于大模型給算力基礎(chǔ)設(shè)施帶來新要求,企業(yè)已有的基礎(chǔ)設(shè)施面臨諸多挑戰(zhàn):
1、大模型技術(shù)對于算力基礎(chǔ)設(shè)施的規(guī)模提出了更高的要求,企業(yè)傳統(tǒng)基礎(chǔ)設(shè)施面臨算力資源不足的挑戰(zhàn)
大模型技術(shù)創(chuàng)新和應(yīng)用需要基于海量數(shù)據(jù)集,在擁有成百上千加速卡的AI服務(wù)器集群上對千億級參數(shù)的AI大模型進(jìn)行分布式訓(xùn)練,這對算力資源的規(guī)模提出了極高的要求。算力不足意味著無法處理龐大的模型和數(shù)據(jù)量,也即無法有效支撐高質(zhì)量的大模型技術(shù)創(chuàng)新。如OpenAI的GPT-3使用10000塊GPU、花了30天完成訓(xùn)練,消耗的總算力為3640PetaFlop/s-day。當(dāng)今國際科技巨頭如微軟、META、谷歌等都在打造萬卡AI集群,提升算力基礎(chǔ)設(shè)施的規(guī)模和能力。
2、大模型算力基礎(chǔ)設(shè)施部署是一個(gè)復(fù)雜的系統(tǒng)工程,對企業(yè)的基礎(chǔ)設(shè)施構(gòu)建和全棧管理能力構(gòu)成全新的挑戰(zhàn)
相比普通的AI訓(xùn)練,大模型的訓(xùn)練技術(shù)考慮的問題更加復(fù)雜,對于基礎(chǔ)設(shè)施的要求也更高。完成大規(guī)模算力集群的搭建只是第一步,要確保 AI 大模型訓(xùn)練任務(wù)的順利完成,還需要非常多系統(tǒng)性的軟硬一體協(xié)同優(yōu)化,這對企業(yè)的基礎(chǔ)設(shè)施構(gòu)建能力構(gòu)成了全新的挑戰(zhàn)。
具體來講,構(gòu)建大模型算力基礎(chǔ)設(shè)施需要統(tǒng)籌考慮大模型分布式訓(xùn)練對于計(jì)算、網(wǎng)絡(luò)和存儲的需求特點(diǎn),并集成平臺軟件、結(jié)合應(yīng)用實(shí)踐, 充分關(guān)注數(shù)據(jù)傳輸、任務(wù)調(diào)度、并行優(yōu)化、資源利用率等,設(shè)計(jì)和構(gòu)建高性能、高速互聯(lián)、存算平衡可擴(kuò)展集群系統(tǒng),以確保大模型訓(xùn)練的高效和穩(wěn)定。
3、大模型基礎(chǔ)設(shè)施算力效率成為更大的挑戰(zhàn)
大模型訓(xùn)練在帶來海量的算力需求的同時(shí),還需要在算力平臺設(shè)計(jì)上考慮到龐大的算力節(jié)點(diǎn)規(guī)模帶來的算力使用效率衰減的問題。大規(guī)模AI計(jì)算集群上的訓(xùn)練算力效率會直接影響到模型訓(xùn)練時(shí)長以及算力消耗成本。因此,如何發(fā)揮大模型算力平臺效能、抑制性能損耗,對于提升生成式AI研發(fā)創(chuàng)新效率有著非常重要的影響。據(jù)公開資料表明,GPT-3大模型在其訓(xùn)練集群上的訓(xùn)練算力效率僅為為21.3%,算力集群效率亟待提升。
以ChatGPT為代表的大模型與生成式AI成為社會廣泛關(guān)注的熱點(diǎn),這其實(shí)給服務(wù)器廠商帶來巨大市場機(jī)遇。
《2022-2023全球計(jì)算力指數(shù)評估報(bào)告》指出,“到2026年,全球AI計(jì)算市場規(guī)模將增長到346.6億美元,生成式AI計(jì)算占比從22年4.2%增長到 31.7%”。Gartner與分析師預(yù)測:到2025 年,由人工智能生成的數(shù)據(jù)占所有數(shù)據(jù)的10%;未來十年AIGC市場規(guī)模將每兩年翻一番,到2032年,AIGC市場規(guī)模將達(dá)2000億美元。
從目前國內(nèi)市場來看,大模型已進(jìn)入新一輪“百模爭霸”的狀態(tài),其對算力、數(shù)據(jù)(數(shù)據(jù)存儲/數(shù)據(jù)處理/數(shù)據(jù)清洗)算法的需求是巨大的,即是機(jī)遇所在。
機(jī)遇與挑戰(zhàn)往往并存。大模型開發(fā)作為一個(gè)復(fù)雜的系統(tǒng)工程,當(dāng)前產(chǎn)業(yè)在算力平臺質(zhì)量、大規(guī)模集群運(yùn)行的效率性能、持續(xù)穩(wěn)定運(yùn)行的時(shí)間等方面依然存在較大的差距。擁有算力,如何用好算力,建立起“算力、算法、生態(tài)、工具鏈”協(xié)同的產(chǎn)業(yè)鏈條是當(dāng)前所面臨的核心瓶頸與挑戰(zhàn),亟需從算力系統(tǒng)層面構(gòu)建起穩(wěn)定且高效的通用大模型,利用通用大模型的泛化能力和智力水平,真正實(shí)現(xiàn)千行百業(yè)應(yīng)用的“順勢而為”。
率先布局生成式AI,構(gòu)建全棧領(lǐng)先的大模型算力系統(tǒng)解決方案
作為最早布局大模型的企業(yè)之一,浪潮信息在業(yè)界率先推出了中文AI巨量模型“源1.0”,參數(shù)規(guī)模高達(dá)2457億。“源1.0”在語言智能方面表現(xiàn)優(yōu)異,獲得中文語言理解評測基準(zhǔn)CLUE榜單的零樣本學(xué)習(xí)(zero-shot)和小樣本學(xué)習(xí)(few-shot)兩類總榜冠軍。浪潮信息通過千億參數(shù)規(guī)模的大模型創(chuàng)新實(shí)踐,已在算力集群構(gòu)建、算力調(diào)度部署、算法模型開發(fā)等方面,構(gòu)建起全棧領(lǐng)先的大模型算力系統(tǒng)解決方案,助力大模型訓(xùn)練開發(fā)。
在算力集群構(gòu)建上,基于大模型實(shí)測對比的集群規(guī)劃,提供包含數(shù)據(jù)中心、算力、網(wǎng)絡(luò)、存儲一體化產(chǎn)品陣列。其中最新一代融合架構(gòu)的AI訓(xùn)練服務(wù)器 NF5688G7采用Hopper架構(gòu)的GPU,較上代平臺大模型實(shí)測性能提升近7倍,同時(shí)支持最新的液冷解決方案,可實(shí)現(xiàn)更低的集群能耗比與運(yùn)行成本,PUE小于1.15,以一個(gè)4000卡的智算中心為例,每年可節(jié)電620萬度、降碳1700噸。在集群高速互聯(lián)層面,基于原生RDMA實(shí)現(xiàn)整個(gè)集群的全線速組網(wǎng),并對網(wǎng)絡(luò)拓?fù)溥M(jìn)行優(yōu)化,可以有效消除混合計(jì)算的計(jì)算瓶頸,確保集群在大模型訓(xùn)練時(shí)始終處于最佳狀態(tài)。
在算力調(diào)度部署上,面對大模型系統(tǒng)級開發(fā)過程中所存在的調(diào)度難、部署慢、效率低、集群異常等問題,浪潮信息推出AIStation智能業(yè)務(wù)創(chuàng)新生產(chǎn)平臺,通過全生命周期的一體化監(jiān)控及調(diào)度系統(tǒng),構(gòu)建起完備的模型訓(xùn)練失效恢復(fù)持續(xù)方案,滿足大模型分布式訓(xùn)練中高穩(wěn)定、高穩(wěn)健性等特性要求,實(shí)現(xiàn)訓(xùn)練異常和故障診斷的自動處理,縮短斷點(diǎn)續(xù)訓(xùn)時(shí)間90%。同時(shí),自研分布式任務(wù)自適應(yīng)系統(tǒng),有效分配底層計(jì)算、存儲、網(wǎng)絡(luò)等資源,提升集群利用率與模型訓(xùn)練效率。高效的集群優(yōu)化調(diào)度策略,大幅簡化大模型訓(xùn)練前大量的、環(huán)境配置、依賴庫適配和超參數(shù)調(diào)整工作。
在算法模型開發(fā)上,“源1.0”針對大模型的Attention層和前饋層的模型空間進(jìn)行結(jié)構(gòu)優(yōu)化,改進(jìn)注意力機(jī)制聚焦文章內(nèi)部聯(lián)系的學(xué)習(xí)。千億大模型的創(chuàng)新實(shí)踐,使得浪潮信息具備從數(shù)據(jù)、訓(xùn)練、部署到應(yīng)用落地的全棧開發(fā)能力。在訓(xùn)練數(shù)據(jù)處理上,通過自研海量數(shù)據(jù)過濾系統(tǒng)(MDFS),建立從數(shù)據(jù)采集、粗濾、質(zhì)量分類、精濾的全自動化的端到端數(shù)據(jù)工作流程,通過清洗866TB海量數(shù)據(jù),獲得5TB高質(zhì)量中文數(shù)據(jù)集。
在助力大模型訓(xùn)練開發(fā)方面,浪潮信息推出AI算力服務(wù),提供經(jīng)“源”清洗驗(yàn)證過的語言或多模態(tài)的大模型數(shù)據(jù)、算法產(chǎn)品及模型訓(xùn)練資源管理平臺,為AI創(chuàng)新研究團(tuán)隊(duì)提供先進(jìn)、開放、高性能、高質(zhì)量的AI算力資源及配套服務(wù),賦能AIGC創(chuàng)新發(fā)展。目前,浪潮信息AI算力服務(wù)已成功助力網(wǎng)易伏羲中文預(yù)訓(xùn)練大模型“玉言”登頂中文語言理解權(quán)威測評基準(zhǔn)CLUE分類任務(wù)榜單,并在多項(xiàng)任務(wù)上超過人類水平。
浪潮信息AI團(tuán)隊(duì)將“源1.0”成功的系統(tǒng)工程經(jīng)驗(yàn)應(yīng)用于智算中心算力系統(tǒng),對集群架構(gòu)、高速互聯(lián)、算力調(diào)度等進(jìn)行全面優(yōu)化,對分布式訓(xùn)練策略進(jìn)行了針對性優(yōu)化,通過合理設(shè)計(jì)張量并行、流水并行和數(shù)據(jù)并行,精準(zhǔn)調(diào)整模型結(jié)構(gòu)和訓(xùn)練過程的超參數(shù),最終實(shí)現(xiàn)千億參數(shù)規(guī)模的大模型訓(xùn)練算力效率達(dá)至53.5%。
目前,浪潮信息在中國人工智能服務(wù)器領(lǐng)域的市場份額已連續(xù)六年保持第一,邊緣和高端服務(wù)器市場中國第一,存儲裝機(jī)容量全球第三,中國第一。并在南京、濟(jì)南、成都、宿州等多個(gè)城市助力當(dāng)?shù)卣、園區(qū)開展智算中心建設(shè),加速算力、算法基礎(chǔ)設(shè)施普惠。
大模型時(shí)代,算力步入PD時(shí)代,綠色液冷正當(dāng)時(shí)
展望未來,大模型還在持續(xù)迭代。國內(nèi)大模型如雨后春筍般出現(xiàn),這需要高效率、高可靠的AI服務(wù)器集群。
浪潮信息提出用“算力當(dāng)量”來對AI任務(wù)所需算力總量進(jìn)行度量,單位是PetaFlops/s-day也就是PD,即用每秒千萬億次的計(jì)算機(jī)完整運(yùn)行一天消耗的算力總量(PD)作為度量單位。一個(gè)任務(wù)需要多少PD的計(jì)算量,就把它視為這個(gè)任務(wù)的“算力當(dāng)量”。GPT-3的算力當(dāng)量是3640個(gè)PD,源1.0是2457億的參數(shù)的大模型,它的算力當(dāng)量是4095個(gè)PD。以GPT-4為例,訓(xùn)練一個(gè)類似GPT-4的模型需要E級算力支撐。所以,模型巨量化是一大趨勢。
算力基建化正當(dāng)時(shí),數(shù)據(jù)中心的發(fā)展方興未艾,每年仍在以20%以上的增速快速增長。而與此同時(shí),作為耗電大戶,數(shù)據(jù)中心的規(guī)模化發(fā)展也帶來了節(jié)能降碳的挑戰(zhàn),綠色低碳化成為大勢所趨。在未來計(jì)算的規(guī)模越來越大的情況下,如果融入綠色因子,就可以達(dá)到效益與生態(tài)的兼顧。
浪潮信息踐行All in液冷戰(zhàn)略,從部件、整機(jī)到數(shù)據(jù)中心全棧布局綠色節(jié)能技術(shù),并建成了亞洲產(chǎn)能最大的液冷天池產(chǎn)業(yè)基地,通過整合研發(fā)、生產(chǎn)、測試、品控、交付等在內(nèi)的全鏈條能力,實(shí)現(xiàn)了液冷產(chǎn)品的標(biāo)準(zhǔn)化、品質(zhì)化、系列化生產(chǎn),年產(chǎn)能達(dá)10萬臺。
據(jù)初步統(tǒng)計(jì),截至今年四月份,采用浪潮信息液冷技術(shù)的數(shù)據(jù)中心累計(jì)已節(jié)省1.05億度電能,相當(dāng)于減少1.3萬噸標(biāo)準(zhǔn)煤消耗、3.5萬噸二氧化碳排放,種植194萬棵樹,可供6.6萬個(gè)中國家庭全年用電。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
