
行到AI“降本”處,坐看“阿里云”起時(shí)

過(guò)去的很長(zhǎng)一段時(shí)間里,AI在人們心中就像是天上的星星,它被賦予了遠(yuǎn)遠(yuǎn)超出其本身能力期待,人人都以為萬(wàn)物智能的時(shí)代觸手可及,F(xiàn)在,企業(yè)開(kāi)始更加理性地看待AI和數(shù)據(jù)的能力。
在晴朗天空的夜晚,抬起頭,我們總能看到點(diǎn)點(diǎn)星辰掛在幽暗的天空中。伸出手,就好像能抓住一捧閃亮的星星。
過(guò)去的很長(zhǎng)一段時(shí)間里,AI在人們心中就像是天上的星星,它被賦予了遠(yuǎn)遠(yuǎn)超出其本身能力期待,人人都以為萬(wàn)物智能的時(shí)代觸手可及。
然而,現(xiàn)實(shí)在美麗的星空前遮上了厚厚的烏云——自2020年下半年以來(lái),芯片缺貨成了全球科技行業(yè)頭上的一把達(dá)摩克里斯之劍。AI產(chǎn)業(yè)鏈也由于缺貨造成了不同程度的產(chǎn)品價(jià)格上漲。再加上AI從研發(fā)到落地部署都需要巨額成本的投入,且大量的算法在應(yīng)用落地上并不順利。疫情之下,企業(yè)也逐步理性地看待AI和數(shù)據(jù)的能力。
企業(yè)在面對(duì)AI上,已經(jīng)開(kāi)始追求更加務(wù)實(shí)的效益目標(biāo)。阿里云智能AI產(chǎn)品總監(jiān)黃博遠(yuǎn)認(rèn)為,相比過(guò)去對(duì)規(guī)模效益的追求,企業(yè)更注重于 AI能為實(shí)際業(yè)務(wù)帶來(lái)的成果和轉(zhuǎn)化,更加關(guān)注計(jì)算效率和資源成本,這也促進(jìn)了優(yōu)化技術(shù)在市場(chǎng)上的廣泛應(yīng)用。
阿里云智能AI產(chǎn)品總監(jiān)黃博遠(yuǎn)
如何降本增效,成為企業(yè)在面對(duì)AI時(shí)最關(guān)注的問(wèn)題。
AI成本從何而來(lái)?
隨著云計(jì)算、異構(gòu)計(jì)算、融合智算的發(fā)展,計(jì)算結(jié)合AI與大數(shù)據(jù),開(kāi)始展現(xiàn)更加強(qiáng)大的能力。為了提高深度學(xué)習(xí)模型的性能,科學(xué)家就需要構(gòu)建更大的模型,使用更多的數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,這其中的成本是大多數(shù)人無(wú)法想象的。在黃博遠(yuǎn)看來(lái),具體體現(xiàn)在以下三個(gè)方面。
首先是資源成本。硬件,尤其是異構(gòu)計(jì)算、高性能網(wǎng)絡(luò)和高吞吐的存儲(chǔ),價(jià)格非常昂貴,如果軟硬件配合不好,會(huì)造成大量的浪費(fèi)。馬薩諸塞大學(xué)阿默斯特分校的研究人員通過(guò)測(cè)量訓(xùn)練過(guò)程中常用硬件的功耗,估算了開(kāi)發(fā)人工智能語(yǔ)言模型的能源成本。他們發(fā)現(xiàn),訓(xùn)練一次 BERT 的碳足跡相當(dāng)于一名乘客在紐約和舊金山之間飛一個(gè)來(lái)回。
機(jī)器學(xué)習(xí)智庫(kù)OpenAI斥資400多萬(wàn)美元,設(shè)計(jì)并訓(xùn)練了深度學(xué)習(xí)語(yǔ)言系統(tǒng)GPT-3。盡管研究人員在操作中犯了一個(gè)錯(cuò)誤,但他們并沒(méi)有修復(fù)它,僅僅在論文附錄中簡(jiǎn)要解釋道:“由于高昂的訓(xùn)練成本,對(duì)模型重新訓(xùn)練是不現(xiàn)實(shí)的。”
第二是人才成本。現(xiàn)在越來(lái)越多的傳統(tǒng)行業(yè)開(kāi)始利用AI解決其實(shí)際問(wèn)題,這個(gè)過(guò)程需要大量的復(fù)合型人才,既懂技術(shù),又懂業(yè)務(wù)。這就需要通過(guò)技術(shù)、產(chǎn)品能力提升這些人才創(chuàng)造業(yè)務(wù)價(jià)值的效率,阿里云靈杰提供的大數(shù)據(jù)AI一體化平臺(tái)就是解決人員效率的利器。
第三是知識(shí)成本。人才不僅僅是一個(gè)簡(jiǎn)單的成本問(wèn)題,企業(yè)在難以找到適配人才的情況下需要提升培養(yǎng)人才的效率,讓人員快速掌握跨領(lǐng)域知識(shí),讓非專業(yè)人員變得更專業(yè)。例如,通過(guò)機(jī)器學(xué)習(xí)PAI平臺(tái),可以讓普通的AI工程師利用優(yōu)化框架,寫(xiě)出更高效的多機(jī)多卡并行訓(xùn)練任務(wù),提高效率的同時(shí)減少試錯(cuò)。
顯然,AI的成本問(wèn)題,算力是癥結(jié)之一,也是破局突破口。通過(guò)算力集群的規(guī)模化,降低單位算力成本,是一條清晰的、具有一定可行性的道路。
可以說(shuō)云計(jì)算通過(guò)彈性及優(yōu)化能力,真正做到資源招之即來(lái)、揮之即去、高效利用,大大地解決了AI算力成本的問(wèn)題。
云計(jì)算扮演了什么角色?
云計(jì)算見(jiàn)證了互聯(lián)網(wǎng)行業(yè)的高速發(fā)展和迭代,如今“高質(zhì)量上云”的趨勢(shì),將為互聯(lián)網(wǎng)行業(yè)帶來(lái)二次騰飛的資源紅利、數(shù)據(jù)紅利以及管理紅利的增長(zhǎng)新動(dòng)能。
云計(jì)算本身提供了一種極致的彈性,能夠大幅提升大家使用資源的性價(jià)比。同時(shí),云服務(wù)提供了涵蓋了從軟件、網(wǎng)絡(luò)、存儲(chǔ)優(yōu)化,到框架、平臺(tái)軟件等一整套端到端的協(xié)同優(yōu)化能力。企業(yè)可以借助云計(jì)算隨時(shí)隨地按需靈活擴(kuò)縮容,進(jìn)而提升算力效率、降低AI研發(fā)成本,基礎(chǔ)設(shè)施及平臺(tái)層的運(yùn)維等問(wèn)題也可以交由更專業(yè)的云廠商處理。
這讓企業(yè)在AI領(lǐng)域模型越演進(jìn)越復(fù)雜,算力需求越來(lái)越強(qiáng)的大背景下,可以揚(yáng)長(zhǎng)避短,充分利用市場(chǎng)上已有的技術(shù)紅利去自我賦能,提升自身業(yè)務(wù)迭代效率。
以阿里云為代表的國(guó)內(nèi)互聯(lián)網(wǎng)云廠商,早已提前布局,并將這一系列技術(shù)對(duì)外服務(wù)。
據(jù)黃博遠(yuǎn)介紹,AI是阿里云最為重要核心投入領(lǐng)域之一。早在2021杭州云棲大會(huì)上阿里云計(jì)算平臺(tái)就發(fā)布大數(shù)據(jù)+AI一體化平臺(tái)新品牌“阿里靈杰”,提供從“采集-存儲(chǔ)-分析-開(kāi)發(fā)-訓(xùn)練-推理-服務(wù)-治理-價(jià)值體現(xiàn)”整套云原生技術(shù)架構(gòu)和產(chǎn)品體系,配套智能化運(yùn)維平臺(tái)和強(qiáng)大的數(shù)據(jù)資產(chǎn)安全管控能力。
依托阿里云領(lǐng)先的基礎(chǔ)設(shè)施、大數(shù)據(jù)和AI工程能力、場(chǎng)景算法技術(shù)和多年行業(yè)實(shí)踐,一站式地為企業(yè)和開(kāi)發(fā)者提供云原生的AI能力體系。幫助提升AI應(yīng)用開(kāi)發(fā)效率,促進(jìn)AI在產(chǎn)業(yè)中規(guī);涞,激發(fā)業(yè)務(wù)價(jià)值。
黃博遠(yuǎn)認(rèn)為,大數(shù)據(jù)+AI是核心技術(shù)創(chuàng)新的土壤,是鏈接客戶業(yè)務(wù)與云基礎(chǔ)設(shè)施核心技術(shù)能力的橋梁,是為客戶創(chuàng)造場(chǎng)景化業(yè)務(wù)價(jià)值驅(qū)動(dòng)力。從AI的基礎(chǔ)設(shè)施,到底層框架、開(kāi)發(fā)平臺(tái)、上層應(yīng)用以及開(kāi)放生態(tài)等幾個(gè)角度,阿里云以及達(dá)摩院都在持續(xù)加大對(duì)AI的投入。
撥開(kāi)烏云,見(jiàn)阿里云
AI計(jì)算是一個(gè)非常復(fù)雜的工程問(wèn)題,會(huì)涉及到異構(gòu)硬件(最熟悉的就是GPU)、網(wǎng)絡(luò)、存儲(chǔ),再到框架以及上層的算法。阿里云最新發(fā)布的全棧智能計(jì)算解決方案飛天智算平臺(tái)提供公共云和專有云兩種模式,為各類(lèi)科研和智能企業(yè)機(jī)構(gòu)提供強(qiáng)大的智能計(jì)算服務(wù)。據(jù)黃博遠(yuǎn)介紹,飛天智算平臺(tái)重點(diǎn)從三個(gè)層面解決企業(yè)各種使用AI過(guò)程匯總的問(wèn)題。
首先,飛天智算平臺(tái)提供了軟硬一體聯(lián)合優(yōu)化的能力。通過(guò)軟硬一體,將計(jì)算、網(wǎng)絡(luò)、I/O訪問(wèn)結(jié)合AI Framework的特點(diǎn)、機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的計(jì)算特點(diǎn),進(jìn)行聯(lián)合優(yōu)化,大幅提升AI分布式訓(xùn)練以及推理的性能/性價(jià)比。而性價(jià)比則決定了AI被廣泛使用門(mén)檻,規(guī)模和性價(jià)比相輔相成、缺一不可。
其次,飛天智算平臺(tái)提供了大數(shù)據(jù)、AI一體化平臺(tái)。平臺(tái)能夠大幅提升產(chǎn)業(yè)鏈上各種參與人員的工作效率。“人才往往是比機(jī)器資源本身更加昂貴的資源。”黃博遠(yuǎn)表示。
第三,飛天智算平臺(tái)提供了大量上層AI服務(wù)。在AI應(yīng)用的過(guò)程中,有著大量的開(kāi)發(fā)人員,他們的核心訴求是使用某一項(xiàng)或某幾項(xiàng)AI能力,對(duì)于這些能力本身是如何構(gòu)建的,他們并不關(guān)心。阿里云依托阿里巴巴集團(tuán)的眾多業(yè)務(wù)、達(dá)摩院的核心算法能力以及作為云計(jì)算領(lǐng)域的領(lǐng)導(dǎo)者在眾多行業(yè)中積累的經(jīng)驗(yàn)和最佳實(shí)踐,為廣大的用戶提供了一些列經(jīng)過(guò)生產(chǎn)實(shí)踐考驗(yàn)的AI能力,助力企業(yè)快速、高效使用AI能力。
此外,AI的部署不僅僅是簡(jiǎn)單的硬件成本,發(fā)布、運(yùn)維、監(jiān)控、穩(wěn)定性等都會(huì)給企業(yè)帶來(lái)更大的無(wú)形成本。通過(guò)機(jī)器學(xué)習(xí)PAI平臺(tái)提供的EAS(彈性算法服務(wù)),企業(yè)可以一鍵將模型發(fā)布成在線服務(wù),同時(shí)利用平臺(tái),輕松使用藍(lán)綠部署、線上監(jiān)控、反饋評(píng)估等能力。
阿里云提供了涵蓋基礎(chǔ)設(shè)施、平臺(tái)、服務(wù)等全方位的AI相關(guān)服務(wù),助力企業(yè)的數(shù)字化、數(shù)據(jù)化及智能化轉(zhuǎn)型。除了標(biāo)準(zhǔn)的產(chǎn)品、服務(wù)之外,阿里云還提供了豐富的最佳實(shí)踐。
在零售行業(yè)、金融行業(yè)、數(shù)字政府、企業(yè)數(shù)據(jù)中臺(tái)、AI中臺(tái)等各類(lèi)場(chǎng)景中,阿里云都提供了豐富的實(shí)踐案例。例如,小鵬汽車(chē)與阿里云合作,在烏蘭察布建成中國(guó)最大的自動(dòng)駕駛智算中心“扶搖”,用于自動(dòng)駕駛模型訓(xùn)練。“扶搖”基于阿里云智能計(jì)算平臺(tái),算力可達(dá)600PFLOPS(每秒浮點(diǎn)運(yùn)算60億億次),將小鵬自動(dòng)駕駛核心模型的訓(xùn)練速度提升了近170倍。
面向未來(lái),黃博遠(yuǎn)表示,綠色、低碳發(fā)展,將促進(jìn)AI平臺(tái)全面提升效率。不論是在大規(guī)模計(jì)算、大模型生成、模型推理服務(wù)還是生態(tài)協(xié)作方面,全面提升算力的利用效率、框架的優(yōu)化效率、數(shù)據(jù)使用效率,以及從業(yè)者的開(kāi)發(fā)與學(xué)習(xí)效率,都將成為AI降本增效,長(zhǎng)期發(fā)展的重要驅(qū)動(dòng)力。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
