數(shù)據(jù)與基礎(chǔ)設(shè)施:AI項目失敗兩大誘因
盡管投入大量資源,但僅有不足半數(shù)AI模型能夠投入生產(chǎn)。為了摸清造成這種窘境的原因,Run:AI委托開展了首輪AI基礎(chǔ)設(shè)施現(xiàn)狀調(diào)查。本次調(diào)查面向來自十個國家的211名數(shù)據(jù)科學(xué)家、AI/機(jī)器學(xué)習(xí)/IT從業(yè)者及系統(tǒng)架構(gòu)師,他們主要來自員工超過5000人的規(guī)模企業(yè),但也包括部分來自初創(chuàng)企業(yè)和超大型跨國集團(tuán)。
統(tǒng)計數(shù)據(jù)也證實了這一基本判斷:77%的受訪者表示他們的大部分AI模型從未投入過正式使用;甚至有五分之一的受訪者給出了更低的答案,稱全部模型中只有10%能夠介入生產(chǎn)環(huán)境。
報告中的其他發(fā)現(xiàn)則給出了具體解釋。例如,只有17%的AI廠商能夠?qū)Π嘿F的AI資源進(jìn)行高效利用;22%的AI解決方案開發(fā)者表示,他們的基礎(chǔ)設(shè)施大多處于閑置狀態(tài),這是因為超過三分之一的受訪者需要手動訪問GPU資源,而且硬件加速器的靜態(tài)分配機(jī)制也嚴(yán)重限制了他們的工作效率。
AI領(lǐng)域已經(jīng)吸納了巨量成本:38%的受訪者表示所在公司單單在AI基礎(chǔ)設(shè)施,包括硬件、軟件與云開銷方面就開出了超過100萬美元的年度預(yù)算;更有15%的受訪者表示所在公司的年度AI基礎(chǔ)設(shè)施投入超過1000萬美元。還有74%的受訪者稱公司計劃在短期之內(nèi)增加GPU容量或AI基礎(chǔ)設(shè)施支出。
調(diào)查發(fā)現(xiàn),AI工作者們面臨的最大挑戰(zhàn)集中在數(shù)據(jù)層面。61%的受訪者表示數(shù)據(jù)收集、數(shù)據(jù)清洗與治理等環(huán)節(jié)存在問題。42%的受訪者強(qiáng)調(diào)所在公司的AI基礎(chǔ)設(shè)施與算力水平達(dá)不到要求。除開數(shù)據(jù)與基礎(chǔ)設(shè)施這兩大核心要素,緊隨其后的挑戰(zhàn)為模型開發(fā)及訓(xùn)練時間過長、模型引用量過大,占受訪者中的24%。
調(diào)查還強(qiáng)調(diào)了云計算在AI領(lǐng)域的作用,53%的受訪者表示他們的AI應(yīng)用程序及基礎(chǔ)設(shè)施位于云端,34%受訪者表示計劃在未來幾年向云端遷移。容器已經(jīng)成為運行AI工作負(fù)載的標(biāo)準(zhǔn)基礎(chǔ)設(shè)施選項,80%的受訪者表示他們已經(jīng)在某些AI工作負(fù)載中使用容器技術(shù),49%的受訪者表示他們的大部分乃至全部AI負(fù)載都運行在容器之內(nèi)。在編排方面,Kubernetes一馬當(dāng)先、獲得42%的支持率,另有16%的受訪者表示計劃使用這套流行的容器編排解決方案。緊隨其后的是Red Hat Openshift,有13%的用戶正在使用、6%的受訪者有意試用。
Run:AI公司聯(lián)合創(chuàng)始人兼CEO Omri Geller表示,“除了基礎(chǔ)設(shè)施層面的數(shù)百萬美元投入之外,對AI抱有興趣的企業(yè)還需要再準(zhǔn)備幾百萬美元招納高水平的AI員工。但很遺憾,大部分AI模型從未被投入實際生產(chǎn),意味著這些投入白白打了水漂。我們的調(diào)查顯示,大量基礎(chǔ)設(shè)施處于閑置狀態(tài)、引發(fā)嚴(yán)重的資源浪費;數(shù)據(jù)科學(xué)家被迫手動訪問GPU資源;而且云遷移之旅也仍在推進(jìn)當(dāng)中?傊,誰能率先把自己的模型投入生產(chǎn)并獲得實效,誰就能在這場AI競賽當(dāng)中占據(jù)領(lǐng)先。”