云計(jì)算時(shí)代,硬件為什么仍然非常重要?
加利福尼亞大學(xué)圣迭戈分校采用了“云優(yōu)先”的戰(zhàn)略,他們淘汰了三臺大型機(jī)、將盡可能多的計(jì)算工作負(fù)載轉(zhuǎn)移到云端、盡可能放棄內(nèi)部部署軟件,轉(zhuǎn)而使用軟件即服務(wù)。
加利福尼亞大學(xué)圣迭戈分校的首席信息官Vince Kellen說:“我很久以前就意識到,CIO們更多地應(yīng)該是供應(yīng)鏈領(lǐng)導(dǎo)者,而不是整天關(guān)注硬件規(guī)格。對于我們大多數(shù)的業(yè)務(wù)問題來說,硬件并不重要。”
越來越多的IT經(jīng)理也有同感。60多年來,處理器、內(nèi)存、存儲(chǔ)、以及其他由金屬和硅制成的組件決定了計(jì)算機(jī)的潛力和局限性。IT部門的核心作用一直是保護(hù)和優(yōu)化這些寶貴的資產(chǎn),系統(tǒng)管理員和維護(hù)人員保持?jǐn)?shù)據(jù)中心的運(yùn)轉(zhuǎn)。
大約20年前,虛擬化技術(shù)實(shí)現(xiàn)了硬件細(xì)節(jié)的抽象,讓基礎(chǔ)設(shè)施成為由軟件管理的單一實(shí)體。過去10年,云計(jì)算進(jìn)一步推動(dòng)了這一進(jìn)程,使硬件成為一種抽象資源,而且對于客戶來說,這個(gè)資源越來越多地由別人來管理。
但令人驚訝的是,云實(shí)際上正在釋放大量新的硬件創(chuàng)新,從作為所有計(jì)算機(jī)和云構(gòu)建基礎(chǔ)的芯片開始。
“這個(gè)時(shí)代實(shí)際上是半導(dǎo)體的黃金時(shí)代,”可編程邏輯電路和軟件公司Xilinx總裁兼首席執(zhí)行官Victor Peng在最近由硅谷思想領(lǐng)袖論壇Churchill Club舉辦的 “The Renaissance of Silicon”活動(dòng)上這樣表示。芯片制造商Micron總裁兼首席執(zhí)行官Sanjay Mehrotra補(bǔ)充說:“在過去的40年里,從未有過現(xiàn)在這么更讓人激動(dòng)的時(shí)刻。”
但遠(yuǎn)不止是芯片。人們普遍認(rèn)為,云基礎(chǔ)設(shè)施提供商把硬件視為一種商品,通過無限可擴(kuò)展的構(gòu)建塊以低成本、菊花鏈的方式連接在一起,并由復(fù)雜的軟件進(jìn)行管理。“對IT經(jīng)理來說,基礎(chǔ)設(shè)施就像是寵物。而對云廠商來說,云就是一種家畜,”Wikibon高級分析師Stu Miniman這么說。
但云也帶來了一些單靠軟件無法解決的棘手問題,這促使云提供商投資數(shù)十億美元在基于硬件的解決方案上,來應(yīng)對遠(yuǎn)程基礎(chǔ)設(shè)施的局限性。
云本身存在延遲方面的缺點(diǎn),以及從云存儲(chǔ)中傳輸大量數(shù)據(jù)所涉及的延遲,這是推動(dòng)基于硅芯片的網(wǎng)絡(luò)加速投資的因素之一。云計(jì)算推動(dòng)物聯(lián)網(wǎng)的興起,引發(fā)了網(wǎng)絡(luò)邊緣新型低功耗設(shè)備的發(fā)展。
最重要的是,基于云的人工智能技術(shù)(如機(jī)器學(xué)習(xí)和深度學(xué)習(xí))的普及,正在推動(dòng)著對硬件架構(gòu)的投資,以滿足這些應(yīng)用對處理能力和內(nèi)存的需求。
Pund-IT首席分析師Charles King認(rèn)為:“如果沒有硬件方面的進(jìn)步,那些我們認(rèn)為理所當(dāng)然的事情,例如即時(shí)啟動(dòng)的電腦、智能手機(jī)、令人驚嘆的游戲視頻、超快速的內(nèi)存數(shù)據(jù)庫、大容量存儲(chǔ)系統(tǒng)等等,都會(huì)面臨各種局限性,或者成本極高。”
“自從我開始工作以來,人們就說,硬件已死,”Wikibon首席分析師David Vellante說。 “直到現(xiàn)在這個(gè)預(yù)測也沒有變成現(xiàn)實(shí)。”
從本質(zhì)上講,硬件重不重要不是關(guān)鍵,關(guān)鍵的是硬件用在哪。
硬件的大規(guī)模遷移
結(jié)果就是,硬件考量因素正在逐漸從用戶轉(zhuǎn)移到后端基礎(chǔ)設(shè)施——也就是現(xiàn)在的云。這對很多IT經(jīng)理來說還好。
Advanced Disposal Services是一家廢棄物處理、回收和再循環(huán)公司,該公司CIO DougSaunders表示:“我們的五年計(jì)劃是將幾乎一切都放在云端,我不想操心硬件方面的問題。”
這位擁有20年IT經(jīng)驗(yàn)的資深人士表示,安裝、調(diào)整和保護(hù)服務(wù)器不僅占滿了他全部的工作時(shí)間,而且這個(gè)過程從初始訂單開始可能需要三個(gè)月的時(shí)間。“你總會(huì)聽到說IT速度太慢,其中一個(gè)原因就是硬件。”
軟件定義管理的吸引力很大,甚至內(nèi)部硬件制造商也不再強(qiáng)調(diào)時(shí)鐘速度、CPU核心數(shù)和存儲(chǔ)容量等規(guī)格了,而是突出便捷性和易于管理等特性。
HPE軟件定義和云計(jì)算營銷總監(jiān)Lauren Whitehouse表示,大多數(shù)客戶對于汽車中的汽缸數(shù)量或者發(fā)動(dòng)機(jī)缸體尺寸并不關(guān)心,他們希望計(jì)算機(jī)也是如此。“他們也許不想管理計(jì)算機(jī),但他們關(guān)心結(jié)果。”她指出,HPE的超融合和可組合式產(chǎn)品增長很快,這些產(chǎn)品避免了硬件管理中的很多細(xì)節(jié)工作。
戴爾最近推出的云平臺“通過獨(dú)特的方法,幫助客戶滿足混合云的需求......跨內(nèi)部、邊緣和公有云提供一種更簡單、具有一致性的操作和軟件基礎(chǔ)設(shè)施,” Dell EMC服務(wù)器和基礎(chǔ)設(shè)施系統(tǒng)產(chǎn)品管理高級副總裁Ravi Pendekanti這樣說道。
對于IT部門而言,這是一個(gè)意外的收獲,以前IT部門會(huì)聘用大量技術(shù)人員來負(fù)責(zé)安裝和配置硬件,聘用管理員來調(diào)節(jié)性能并優(yōu)化利用率。而今天,這些工作崗位正在被以服務(wù)水平管理、合同和云調(diào)度等方面的職位所取代。根據(jù)Statista的數(shù)據(jù)顯示,全球企業(yè)IT運(yùn)營人員支出預(yù)計(jì)將從2015年的3150億美元降至2026年的1420億美元。
Hyperion Research研究和技術(shù)副總裁Bob Sorensen表示,即使在實(shí)驗(yàn)室和學(xué)術(shù)機(jī)構(gòu)等高性能計(jì)算設(shè)備的用戶群中,“也有越來越多的工程師是與硬件無關(guān)的,他們更喜歡在虛擬環(huán)境或者容器中啟動(dòng)和運(yùn)行”。
最重要的是,“IT經(jīng)理不用再把時(shí)間花在機(jī)架堆疊和調(diào)節(jié)各種按鈕的工作上,而是通過軟件管理一切,” Wikibon的Miniman這樣說。
摩爾定律的終結(jié)
但是,讓硬件對于用戶是透明的這一訴求正在推動(dòng)著芯片背后的大量工作,其中一個(gè)原因是過去那些推動(dòng)計(jì)算機(jī)和服務(wù)器性能的核心技術(shù)不再保持快速發(fā)展。幾年前,磁盤驅(qū)動(dòng)器達(dá)到了理論性能峰值,閃存存儲(chǔ)器的速度提升也已經(jīng)達(dá)到了收益遞減的程度。
更根本的問題是,微處理器正面臨發(fā)展壁壘。40多年來,基于X86架構(gòu)的芯片每18到24個(gè)月的性能大約會(huì)翻一倍,這就是所謂的摩爾定律。然而,芯片的小型化遭遇了物理上的限制,使得發(fā)展速度放緩且成本越來越高。
簡而言之,正如谷歌云計(jì)算機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施產(chǎn)品管理高級主管Damion Heredia設(shè)施蘇所說,“摩爾定律已死”。
通用微處理器“是為了運(yùn)行很多不同類型的工作負(fù)載而生的”,但隨著通用微處理器的增長逐漸轉(zhuǎn)向?qū)S糜?jì)算工作負(fù)載如機(jī)器學(xué)習(xí),導(dǎo)致“CPU無法提供解決這些問題的能力”。
這意味著計(jì)算機(jī)行業(yè)必須尋找其他方面的創(chuàng)新才能推動(dòng)數(shù)十年來的增長勢頭。King表示:“硬件仍然很重要,只是硬件不同罷了。”
因此,圖形處理器市場開始飛速發(fā)展,這種芯片廣受機(jī)器學(xué)習(xí)軟件應(yīng)用的歡迎。根據(jù)Global Market Insights的預(yù)測,到2024年全球GPU出貨量的年增長率將超過30%,收入達(dá)到800億美元。
作為這個(gè)市場的領(lǐng)導(dǎo)者,Nvidia在去年10月受加密貨幣市場崩盤拖累之前的股價(jià)在兩年里翻了兩番。盡管如此,長期前景仍然強(qiáng)勁。
Nvidia企業(yè)和邊緣計(jì)算解決方案高級總監(jiān)Justin Boitano表示:“我們對外傳遞的一個(gè)重要信息就是,摩爾定律很大程度上已經(jīng)結(jié)束,CPU級的計(jì)算性能達(dá)到了一個(gè)維持穩(wěn)定的水平。”
不再強(qiáng)調(diào)微處理器
Nvidia和其他GPU制造商正在試圖滿足云廠商和系統(tǒng)制造商對新型硬件架構(gòu)的需求,這種架構(gòu)將不再強(qiáng)調(diào)微處理器性能,而是突出架構(gòu)本身非常適合機(jī)器學(xué)習(xí)工作負(fù)載并行處理的需求。專門用于處理機(jī)器學(xué)習(xí)工作負(fù)載的機(jī)器會(huì)把大部分工作交給GPU,GPU會(huì)并行處理數(shù)據(jù)并將結(jié)果反饋給CPU,因此CPU的速度就不需要那么快。
對于某些工作負(fù)載來說,這種方法帶來了性能上質(zhì)的飛躍。人工智能初創(chuàng)公司OpenAI上周獲得了微軟10億美元的巨額投資,該公司曾在去年預(yù)測,在2012年到2018年期間,OpenAI最大規(guī)模的人工智能訓(xùn)練中所使用的計(jì)算能力增長了30多萬倍,3.5個(gè)月就翻一番的速度遠(yuǎn)遠(yuǎn)超過了摩爾定律的增長速度。
不僅僅是GPU,手機(jī)采用的低功耗、精簡指令集計(jì)算Arm微處理器也在物聯(lián)網(wǎng)設(shè)備甚至是AWS ECS實(shí)例中尋找新的用途。
英特爾和其他公司也把賭注投向了持久內(nèi)存,這種新型內(nèi)存會(huì)把存儲(chǔ)的數(shù)據(jù)保留特性與DRAM的速度優(yōu)勢結(jié)合到一起。持久內(nèi)存特別適合超大規(guī)模場景,這種技術(shù)證明了云計(jì)算帶來硬件優(yōu)先級上的變化。“這將是一項(xiàng)具有革命性的技術(shù),”VMware云平臺業(yè)務(wù)部首席技術(shù)官Kit Colbert這樣說。
由于云計(jì)算企業(yè)正試圖幫助那些將大量數(shù)據(jù)移入和移出云端的客戶解決延遲和數(shù)據(jù)傳輸問題,因此市場對網(wǎng)絡(luò)硬件的興趣也在激增。Hyperion公司的Sorensen表示:“關(guān)鍵在與數(shù)據(jù)移動(dòng),而不是計(jì)算能力?梢越鉀Q數(shù)據(jù)移動(dòng)問題的CPU將會(huì)勝出。”
云計(jì)算三大巨頭——亞馬遜、微軟和谷歌——總共投資數(shù)十億美元在定制硬件上,用于提高自身云平臺的性能或者調(diào)優(yōu)服務(wù)來滿足特定的用途,例如人工智能開發(fā)等等。云提供商喜歡人工智能。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)過程會(huì)消耗大量數(shù)據(jù),消耗的處理能力和所能提供的一樣多。
人工智能芯片
谷歌把自己的云計(jì)算戰(zhàn)略重點(diǎn)放在了處理人工智能工作負(fù)載上,為此設(shè)計(jì)了名為TPU的微處理器家族,號稱相比GPU的成本更低性能更高。
TPU的性能突飛猛進(jìn),到目前為止還沒有遇到X86面臨的物理局限性。谷歌的Heredia表示,2015年的時(shí)候在多層神經(jīng)網(wǎng)絡(luò)ResNet 50上訓(xùn)練一個(gè)深度學(xué)習(xí)模型的成本超過20萬美元,“而今天,成本比一杯咖啡還便宜”。
其他云提供商也加入到這場硬件大戰(zhàn)中。微軟Project Olympus是一項(xiàng)針對微軟基于OCP構(gòu)建的云平臺打造一系列服務(wù)器結(jié)構(gòu)塊的項(xiàng)目。AWS基于ARM的Graviton處理器從2015年開始開發(fā),到現(xiàn)在已經(jīng)在AWS EC2實(shí)例中實(shí)現(xiàn)普及。
“硬件專業(yè)化可以將延遲、性價(jià)比和功耗/性能比提高10倍,但多年來,大多數(shù)計(jì)算工作負(fù)載一直停留在通用處理器上,”AWS杰出工程師James Hamilton在最近的一篇博客文章中這樣寫道。亞馬遜每年要安裝一百多萬個(gè)專用芯片,專門用于機(jī)器學(xué)習(xí)工作負(fù)載。
亞馬遜的Nitro項(xiàng)目則是將硬件和軟件結(jié)合,消除虛擬化的開銷。Hamilton寫道,亞馬遜每年消耗“數(shù)百萬個(gè)Nitro ASIC,而且是僅供AWS使用”。除了網(wǎng)絡(luò)數(shù)據(jù)包封裝/解封裝、EC2安全群組實(shí)施和微處理器路由等開銷之外,這種硬件配置對于大多數(shù)IT部門來說都是不切實(shí)際的。
Xilinx公司的Peng表示,“用于特定領(lǐng)域的架構(gòu)”越來越多地成為人工智能和其他要求苛刻的工作負(fù)載一種解決辦法。
英特爾也注意到了對專用處理器的需求,2015年英特爾以167億美元收購了FPGA制造商Altera,以及最近收購的Nervana Systems、Omnitek B.V.和Movidius等專用芯片公司,就很好地證明了這一點(diǎn)。
但這并不是說微處理器就會(huì)消亡。根據(jù)IDC的數(shù)據(jù)顯示,2018年全球基于英特爾X86的服務(wù)器出貨量增長15.4%,但其中大部分增長來自滿足云服務(wù)提供商的需求。
物聯(lián)網(wǎng)的因素
雖然擺弄DIP開關(guān)和熱插拔磁盤驅(qū)動(dòng)器的時(shí)代可能快要結(jié)束,但并不是說IT部門就完全不關(guān)注硬件了。物聯(lián)網(wǎng)熱潮引入了數(shù)千種新平臺,這就需要考慮每個(gè)平臺底層的硬件因素。
“所有物聯(lián)網(wǎng)廠商都有他們自己的解決方案,說到硬件,現(xiàn)在這還是一個(gè)非常碎片化的領(lǐng)域,”美國北卡羅來納州卡里鎮(zhèn)首席技術(shù)官Peter Kennedey這樣表示。
美國北卡羅來納州卡里鎮(zhèn)正在將基礎(chǔ)設(shè)施遷移到云端,把大約25%的基礎(chǔ)設(shè)施轉(zhuǎn)移到超融合平臺上,但該鎮(zhèn)也在安裝智能停車計(jì)時(shí)器、智能水表,在供水系統(tǒng)中安裝阿片傳感器,甚至是嚙齒動(dòng)物掉進(jìn)陷阱的時(shí)候發(fā)送電子警報(bào)。
對于卡里鎮(zhèn)來說,要在云端處理所有這些新數(shù)據(jù),延遲和數(shù)據(jù)量是最大的阻礙,這就需要安裝新的邊緣設(shè)備作為收集點(diǎn)和過濾點(diǎn)。“這是一種完全不同的硬件,每個(gè)硬件都是一個(gè)獨(dú)立的設(shè)備,而且每個(gè)廠商的硬件都是不同的,標(biāo)準(zhǔn)也非常非常新。”
對他來說,“硬件變得前所未有的重要”。
Advanced Disposal Services公司的Saunders表示,系統(tǒng)管理之類的傳統(tǒng)IT技能并不一定適用于這種新型的設(shè)備。目前他的公司正在為6000多輛卡車每輛車配備6個(gè)攝像頭,用于安全和合規(guī)監(jiān)控等目的。
他說:“你需要一個(gè)知道如何創(chuàng)新和創(chuàng)造新收入的團(tuán)隊(duì),這與坐在辦公桌前監(jiān)控87臺路由器可是不同的。”所幸的是,智能設(shè)備改變業(yè)務(wù)所帶來巨大的機(jī)會(huì),吸引著年輕的IT人員從事這項(xiàng)工作。
云提供商正在通過專用服務(wù)和硬件來解決邊緣市場的各種問題,包括模擬云堆棧的內(nèi)部部署基礎(chǔ)設(shè)施等,但隨著未來十年設(shè)備數(shù)量將近10倍的增長,可以肯定地說,物聯(lián)網(wǎng)將讓硬件一直成為關(guān)注焦點(diǎn)。
結(jié)果就是,IT部門未來今年將面臨大量的硬件…
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
