
并行科技陳健:超算架構大模型算力,買不如租!

大模型的訓練需要大量的計算資源,企業(yè)的資金投入幾十億到上百億,因此在算力投入上要特別謹慎。大模型的訓練是個典型的超算場景,采用超算的方式對企業(yè)來說更具性價比。租用算力方式比自建方式能讓企業(yè)風險更低、現(xiàn)金流更充裕。
繼Meta開源了Llama 2后,智譜AI及清華KEG實驗室也將ChatGLM2-6B模型開源并免費商用。據(jù)統(tǒng)計,國內已公開發(fā)布了80余個AI大模型,其中半數(shù)都將開源。大模型的“百花爭艷”也讓更多的企業(yè)加入到算力擴張、模型訓練與創(chuàng)業(yè)的熱潮中。
“大模型的出現(xiàn)讓我們看到了一個新生產(chǎn)力的崛起。通過對大模型的研究,人類首次發(fā)現(xiàn),可以讓一部分的腦力勞動由機器替代,實現(xiàn)人類生產(chǎn)力的大幅提高。因此也帶來了大模型算力需求的爆發(fā)式增長。”北京并行科技股份有限公司董事長陳健博士接受至頂網(wǎng)記者專訪時這樣表示。
但他同時指出:“大模型的訓練需要大量的計算資源,企業(yè)的資金投入要幾十億到上百億元,因此在算力投入上要特別謹慎。大模型的訓練是個典型的超算應用場景,采用超算的方式對企業(yè)來說更具性價比。租用算力方式比自建方式能讓企業(yè)風險更低、現(xiàn)金流更充裕。”
(圖:北京并行科技股份有限公司董事長陳健博士)
訓練大模型太燒錢 租用算力更現(xiàn)實
企業(yè)要做自己的大模型,首先要解決的就是大模型訓練的基礎設施問題——算力。企業(yè)自建算力還是租用算力同樣是抉擇難題。陳健建議:“大模型對算力的需求極大,動輒十幾億,光電費就要幾百萬,企業(yè)采用租用算力是風險最小、資金利用最優(yōu)的方式。”
“據(jù)我們觀察,在超算領域有90%是自建的,但大模型出來后自建的比例在明顯降低。一半以上都在租用。”
做大模型訓練不僅關系到企業(yè)計算算力成本的問題,還關系到企業(yè)業(yè)務方向和企業(yè)資金周轉效率的問題。從企業(yè)經(jīng)營風險上看,陳健認為:“如果企業(yè)訓練的模型是面向ToC領域,產(chǎn)品風險相對就比較大。如果是做面向ToB的大模型,一般能拿到用戶端在算力方面的費用,這樣風險會相對較小。如給銀行做客服大模型這種應用場景比較確定,風險也就比較小。”
算力的利用效率也就是資金的利用效率。陳健表示:“超算領域大家拼的就是算力的利用率。如果企業(yè)能大概確定自己算力的利用率能夠連續(xù)5年達到或超過60%,那自建就沒太大風險。在超算領域,租用的利用率總體上能達到60%,是國內自建超算算力平均利用率的2倍。”
從企業(yè)經(jīng)營策略上看。“服務器的生命周期大概就是5年。如果采用購買服務器的方式自建,等于將5年的錢投入一次性支付,這種情況對企業(yè)尤其是初創(chuàng)企業(yè)的現(xiàn)金流是極大的考驗。如果過早地將現(xiàn)金都套在高折舊的資產(chǎn)上,這對公司的經(jīng)營會帶來較大的影響,不劃算。從另一個角度來看,初創(chuàng)企業(yè)的融資是一輪一輪進行的,越在早期,同樣數(shù)量的融資額所占的股份比例就越大,股權融資成本高。這筆錢如果用來一次性支付5年的計算資源這種做法并不明智。企業(yè)應把未來的錢花在今天的經(jīng)營、業(yè)務增長上。”陳健這樣分析。
“以并行科技為例,我們是一家提供超算的服務商,要滿足大模型訓練,在GPU或計算卡上的投入就是幾個億。我們測算了一下,購買1000張H800,按市場價,就要投入3億資金。如此大額的投資我們也不能貿然投入。而是采用算力網(wǎng)絡模式,和三大運營商合作,由運營商出錢購買算力,我們做總包運營,大家合作分成,來解決重資產(chǎn)這個難題。
“因此,買不如租,大部分企業(yè)會選擇租用的模式。企業(yè)在算力規(guī)劃上還是要根據(jù)自身的發(fā)展情況。通用大模型發(fā)展非?,算力燒錢的速度也非常快,都是以億元為計。企業(yè)如果在沒有融到足夠的資金,還是不要采用自建算力的模式。”
加速落地,超算更適合大模型訓練
市面上可選的算力租用方式無非就三種:云計算模式,采用公有云的方式;裸金屬模式,也就是傳統(tǒng)的服務器托管,以物理機的形式交付;還有就是超算模式,用海量的GPU卡,通過業(yè)務調度的方式變成一個大的計算池,用戶用的時候從中選擇自己所需要的GPU卡,用完再釋放掉這些卡資源以便別人調用。
“我們認為,采用GPU集群的超算模式更適合大模型的訓練。”陳健解釋道:“大模型的訓練本質上就是一個超大的訓練任務,比如在1000張(或更多)GPU卡上跑兩、三個月,這就是一個典型的超算應用場景。”
“云計算或者說云主機模式就是一個GPU服務器分給很多用戶共享,是海量的單臺、單節(jié)點的共享,并且是單節(jié)點內部的GPU卡資源的共享?上攵,這個共享級別不足以支撐大模型訓練需要成百上千張卡跑一兩個月這樣的應用場景。”
“采用GPU集群的超算模式是大模型訓練較具成本優(yōu)勢的方式。用戶只需對自己真實使用的GPU算力進行付費。而不是租了一年,調試要三個月,這三個月的調試期也要付費。”所以無論從算力對大模型訓練場景的支撐能力,還是實際租用帶來的使用體驗,尤其是成本消耗上,超算都可謂是大模型訓練的上乘之選。
堅持“三(數(shù)據(jù)、應用、模型)不碰”原則 ,超算中立且安全
“提供超算的企業(yè)自己并不做模型,也就是不跟自己的客戶進行競爭。”陳健認為這是對那些依靠訓練大模型創(chuàng)業(yè)和提升企業(yè)競爭力的企業(yè)一種極大的保護。他表示:“像一些算力服務商,他們既提供算力又提供模型,可能會發(fā)生和自己的客戶相競爭的局面。”
“并行科技在商業(yè)邏輯上嚴格限制自己的行為范圍,我們只做算力或者通過算力網(wǎng)絡整合算力,做好平臺,做好與應用的適配,做好應用執(zhí)行時的值守,確保應用的穩(wěn)定、正常運行,讓整個訓練過程順利完成。”
“此外,我們更重要的是要做好優(yōu)化,讓程序跑得快。例如,我們有個客戶用500張GPU卡訓練,通過計算優(yōu)化,我們幫他提升了40% 的性能。”
“我們主要通過技術服務、應用服務以及性能優(yōu)化,幫助客戶提升訓練效率。我們的優(yōu)勢主要體現(xiàn)在:一、確保用戶有GPU卡可以用。二、通過技術服務讓客戶感到好用。三、通過算力優(yōu)化降低用戶用GPU卡的成本并提升效率。”
大模型爆發(fā)式增長,在需求強勁和相關產(chǎn)業(yè)政策催化的雙輪驅動下,將迎來智能算力基礎設施建設的大擴容時代。企業(yè)在看到市場前景的同時也要考慮到產(chǎn)業(yè)風險和經(jīng)營效率,做好頂層規(guī)劃與技術積累,才能在機遇到來時既不錯過,也不踏空。
本文章選自《數(shù)字化轉型方略》雜志,閱讀更多雜志內容,請掃描下方二維碼
