行到AI“降本”處,坐看“阿里云”起時
過去的很長一段時間里,AI在人們心中就像是天上的星星,它被賦予了遠遠超出其本身能力期待,人人都以為萬物智能的時代觸手可及。現(xiàn)在,企業(yè)開始更加理性地看待AI和數(shù)據(jù)的能力。
在晴朗天空的夜晚,抬起頭,我們總能看到點點星辰掛在幽暗的天空中。伸出手,就好像能抓住一捧閃亮的星星。
過去的很長一段時間里,AI在人們心中就像是天上的星星,它被賦予了遠遠超出其本身能力期待,人人都以為萬物智能的時代觸手可及。
然而,現(xiàn)實在美麗的星空前遮上了厚厚的烏云——自2020年下半年以來,芯片缺貨成了全球科技行業(yè)頭上的一把達摩克里斯之劍。AI產(chǎn)業(yè)鏈也由于缺貨造成了不同程度的產(chǎn)品價格上漲。再加上AI從研發(fā)到落地部署都需要巨額成本的投入,且大量的算法在應用落地上并不順利。疫情之下,企業(yè)也逐步理性地看待AI和數(shù)據(jù)的能力。
企業(yè)在面對AI上,已經(jīng)開始追求更加務實的效益目標。阿里云智能AI產(chǎn)品總監(jiān)黃博遠認為,相比過去對規(guī)模效益的追求,企業(yè)更注重于 AI能為實際業(yè)務帶來的成果和轉(zhuǎn)化,更加關(guān)注計算效率和資源成本,這也促進了優(yōu)化技術(shù)在市場上的廣泛應用。
阿里云智能AI產(chǎn)品總監(jiān)黃博遠
如何降本增效,成為企業(yè)在面對AI時最關(guān)注的問題。
AI成本從何而來?
隨著云計算、異構(gòu)計算、融合智算的發(fā)展,計算結(jié)合AI與大數(shù)據(jù),開始展現(xiàn)更加強大的能力。為了提高深度學習模型的性能,科學家就需要構(gòu)建更大的模型,使用更多的數(shù)據(jù)對其進行訓練,這其中的成本是大多數(shù)人無法想象的。在黃博遠看來,具體體現(xiàn)在以下三個方面。
首先是資源成本。硬件,尤其是異構(gòu)計算、高性能網(wǎng)絡和高吞吐的存儲,價格非常昂貴,如果軟硬件配合不好,會造成大量的浪費。馬薩諸塞大學阿默斯特分校的研究人員通過測量訓練過程中常用硬件的功耗,估算了開發(fā)人工智能語言模型的能源成本。他們發(fā)現(xiàn),訓練一次 BERT 的碳足跡相當于一名乘客在紐約和舊金山之間飛一個來回。
機器學習智庫OpenAI斥資400多萬美元,設計并訓練了深度學習語言系統(tǒng)GPT-3。盡管研究人員在操作中犯了一個錯誤,但他們并沒有修復它,僅僅在論文附錄中簡要解釋道:“由于高昂的訓練成本,對模型重新訓練是不現(xiàn)實的。”
第二是人才成本。現(xiàn)在越來越多的傳統(tǒng)行業(yè)開始利用AI解決其實際問題,這個過程需要大量的復合型人才,既懂技術(shù),又懂業(yè)務。這就需要通過技術(shù)、產(chǎn)品能力提升這些人才創(chuàng)造業(yè)務價值的效率,阿里云靈杰提供的大數(shù)據(jù)AI一體化平臺就是解決人員效率的利器。
第三是知識成本。人才不僅僅是一個簡單的成本問題,企業(yè)在難以找到適配人才的情況下需要提升培養(yǎng)人才的效率,讓人員快速掌握跨領(lǐng)域知識,讓非專業(yè)人員變得更專業(yè)。例如,通過機器學習PAI平臺,可以讓普通的AI工程師利用優(yōu)化框架,寫出更高效的多機多卡并行訓練任務,提高效率的同時減少試錯。
顯然,AI的成本問題,算力是癥結(jié)之一,也是破局突破口。通過算力集群的規(guī);,降低單位算力成本,是一條清晰的、具有一定可行性的道路。
可以說云計算通過彈性及優(yōu)化能力,真正做到資源招之即來、揮之即去、高效利用,大大地解決了AI算力成本的問題。
云計算扮演了什么角色?
云計算見證了互聯(lián)網(wǎng)行業(yè)的高速發(fā)展和迭代,如今“高質(zhì)量上云”的趨勢,將為互聯(lián)網(wǎng)行業(yè)帶來二次騰飛的資源紅利、數(shù)據(jù)紅利以及管理紅利的增長新動能。
云計算本身提供了一種極致的彈性,能夠大幅提升大家使用資源的性價比。同時,云服務提供了涵蓋了從軟件、網(wǎng)絡、存儲優(yōu)化,到框架、平臺軟件等一整套端到端的協(xié)同優(yōu)化能力。企業(yè)可以借助云計算隨時隨地按需靈活擴縮容,進而提升算力效率、降低AI研發(fā)成本,基礎(chǔ)設施及平臺層的運維等問題也可以交由更專業(yè)的云廠商處理。
這讓企業(yè)在AI領(lǐng)域模型越演進越復雜,算力需求越來越強的大背景下,可以揚長避短,充分利用市場上已有的技術(shù)紅利去自我賦能,提升自身業(yè)務迭代效率。
以阿里云為代表的國內(nèi)互聯(lián)網(wǎng)云廠商,早已提前布局,并將這一系列技術(shù)對外服務。
據(jù)黃博遠介紹,AI是阿里云最為重要核心投入領(lǐng)域之一。早在2021杭州云棲大會上阿里云計算平臺就發(fā)布大數(shù)據(jù)+AI一體化平臺新品牌“阿里靈杰”,提供從“采集-存儲-分析-開發(fā)-訓練-推理-服務-治理-價值體現(xiàn)”整套云原生技術(shù)架構(gòu)和產(chǎn)品體系,配套智能化運維平臺和強大的數(shù)據(jù)資產(chǎn)安全管控能力。
依托阿里云領(lǐng)先的基礎(chǔ)設施、大數(shù)據(jù)和AI工程能力、場景算法技術(shù)和多年行業(yè)實踐,一站式地為企業(yè)和開發(fā)者提供云原生的AI能力體系。幫助提升AI應用開發(fā)效率,促進AI在產(chǎn)業(yè)中規(guī);涞,激發(fā)業(yè)務價值。
黃博遠認為,大數(shù)據(jù)+AI是核心技術(shù)創(chuàng)新的土壤,是鏈接客戶業(yè)務與云基礎(chǔ)設施核心技術(shù)能力的橋梁,是為客戶創(chuàng)造場景化業(yè)務價值驅(qū)動力。從AI的基礎(chǔ)設施,到底層框架、開發(fā)平臺、上層應用以及開放生態(tài)等幾個角度,阿里云以及達摩院都在持續(xù)加大對AI的投入。
撥開烏云,見阿里云
AI計算是一個非常復雜的工程問題,會涉及到異構(gòu)硬件(最熟悉的就是GPU)、網(wǎng)絡、存儲,再到框架以及上層的算法。阿里云最新發(fā)布的全棧智能計算解決方案飛天智算平臺提供公共云和專有云兩種模式,為各類科研和智能企業(yè)機構(gòu)提供強大的智能計算服務。據(jù)黃博遠介紹,飛天智算平臺重點從三個層面解決企業(yè)各種使用AI過程匯總的問題。
首先,飛天智算平臺提供了軟硬一體聯(lián)合優(yōu)化的能力。通過軟硬一體,將計算、網(wǎng)絡、I/O訪問結(jié)合AI Framework的特點、機器學習/深度學習的計算特點,進行聯(lián)合優(yōu)化,大幅提升AI分布式訓練以及推理的性能/性價比。而性價比則決定了AI被廣泛使用門檻,規(guī)模和性價比相輔相成、缺一不可。
其次,飛天智算平臺提供了大數(shù)據(jù)、AI一體化平臺。平臺能夠大幅提升產(chǎn)業(yè)鏈上各種參與人員的工作效率。“人才往往是比機器資源本身更加昂貴的資源。”黃博遠表示。
第三,飛天智算平臺提供了大量上層AI服務。在AI應用的過程中,有著大量的開發(fā)人員,他們的核心訴求是使用某一項或某幾項AI能力,對于這些能力本身是如何構(gòu)建的,他們并不關(guān)心。阿里云依托阿里巴巴集團的眾多業(yè)務、達摩院的核心算法能力以及作為云計算領(lǐng)域的領(lǐng)導者在眾多行業(yè)中積累的經(jīng)驗和最佳實踐,為廣大的用戶提供了一些列經(jīng)過生產(chǎn)實踐考驗的AI能力,助力企業(yè)快速、高效使用AI能力。
此外,AI的部署不僅僅是簡單的硬件成本,發(fā)布、運維、監(jiān)控、穩(wěn)定性等都會給企業(yè)帶來更大的無形成本。通過機器學習PAI平臺提供的EAS(彈性算法服務),企業(yè)可以一鍵將模型發(fā)布成在線服務,同時利用平臺,輕松使用藍綠部署、線上監(jiān)控、反饋評估等能力。
阿里云提供了涵蓋基礎(chǔ)設施、平臺、服務等全方位的AI相關(guān)服務,助力企業(yè)的數(shù)字化、數(shù)據(jù)化及智能化轉(zhuǎn)型。除了標準的產(chǎn)品、服務之外,阿里云還提供了豐富的最佳實踐。
在零售行業(yè)、金融行業(yè)、數(shù)字政府、企業(yè)數(shù)據(jù)中臺、AI中臺等各類場景中,阿里云都提供了豐富的實踐案例。例如,小鵬汽車與阿里云合作,在烏蘭察布建成中國最大的自動駕駛智算中心“扶搖”,用于自動駕駛模型訓練。“扶搖”基于阿里云智能計算平臺,算力可達600PFLOPS(每秒浮點運算60億億次),將小鵬自動駕駛核心模型的訓練速度提升了近170倍。
面向未來,黃博遠表示,綠色、低碳發(fā)展,將促進AI平臺全面提升效率。不論是在大規(guī)模計算、大模型生成、模型推理服務還是生態(tài)協(xié)作方面,全面提升算力的利用效率、框架的優(yōu)化效率、數(shù)據(jù)使用效率,以及從業(yè)者的開發(fā)與學習效率,都將成為AI降本增效,長期發(fā)展的重要驅(qū)動力。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼