打破存儲(chǔ)性能瓶頸,實(shí)現(xiàn)AI應(yīng)用的騰飛
經(jīng)典的“木桶理論”告訴我們,決定桶能裝多少水,是由最低的那塊木板來決定的。
同樣目前數(shù)據(jù)在整個(gè)IT系統(tǒng)中的運(yùn)行過程,也有一個(gè)瓶頸一直存在,就是存儲(chǔ)介質(zhì)的性能。
互聯(lián)網(wǎng)催生了海量應(yīng)用,海量應(yīng)用誕生了海量的不同種類的數(shù)據(jù)。要讓多元的數(shù)據(jù)發(fā)揮價(jià)值,不僅需要更強(qiáng)的處理器,更快的網(wǎng)絡(luò)還有最終數(shù)據(jù)存儲(chǔ)的讀寫能力。
今天算力發(fā)展喜人,多元的數(shù)據(jù),催生著多元的算力的出現(xiàn),通用算力CPU、人工智能算力GPU、TPU、NPU等處理器的蓬勃發(fā)展,X86、ARM架構(gòu)等算力的架構(gòu)發(fā)展。
網(wǎng)絡(luò)技術(shù)發(fā)展喜人,移動(dòng)互聯(lián)、視頻、直播等對(duì)于海量的數(shù)據(jù)傳輸需求,催生了數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬100G、400G端口的發(fā)展。華為早在2018年正式發(fā)布全新400G光網(wǎng)絡(luò)商用解決方案,支撐運(yùn)營商全業(yè)務(wù)場(chǎng)景的400G網(wǎng)絡(luò)快速部署。
同樣存儲(chǔ)技術(shù)在性能方面的發(fā)展并不喜人,海量的數(shù)據(jù)催生了存儲(chǔ)技術(shù)的發(fā)展,介質(zhì)上從磁盤到NAND、3D NAND的固態(tài)盤,接口從SAS、SATA、PCIE、NVME傳輸協(xié)議的升級(jí)。但是我們看到存儲(chǔ)在單位容量增長(zhǎng)的速度,遠(yuǎn)遠(yuǎn)大于單位存儲(chǔ)傳輸性能的速度。數(shù)據(jù)在存儲(chǔ)介質(zhì)和外界交換的傳輸速度成為整個(gè)IT系統(tǒng)的瓶頸。
在積極突破存儲(chǔ)瓶頸的方向上,目前提出有三種方法,一、直接采用全新的架構(gòu)和技術(shù)重新定義存儲(chǔ)技術(shù)。二、采用分布式存儲(chǔ),讓數(shù)據(jù)分散傳輸來提升整個(gè)IT系統(tǒng)的效率。三、研發(fā)新的存儲(chǔ)介質(zhì),包括原子存儲(chǔ)技術(shù)和DNA存儲(chǔ)技術(shù)。
研發(fā)新的架構(gòu)和技術(shù)。在不久前的2021華為全球分析師大會(huì),華為發(fā)布了邁向智能世界2030的九大技術(shù)挑戰(zhàn)與研究方向,其中就有針對(duì)IT架構(gòu)中最后的挑戰(zhàn),存儲(chǔ)性能提升給出了方向,包括構(gòu)建提升存儲(chǔ)性能百倍的新存儲(chǔ)技術(shù)研究方向。
華為希望從突破馮諾依曼架構(gòu)來提升存儲(chǔ)能力。目前的IT架構(gòu)基于馮諾依曼架構(gòu),數(shù)據(jù)在CPU、內(nèi)存、存儲(chǔ)介質(zhì)之間移動(dòng),其中任何一個(gè)環(huán)境的性能差,都會(huì)對(duì)整個(gè)系統(tǒng)帶來性能挑戰(zhàn)。
我們看到CPU的性能一直在提升,內(nèi)存的性能也在提升,網(wǎng)絡(luò)的帶寬也在提升,存儲(chǔ)的容量也在提升,但是存儲(chǔ)的性能卻一直是瓶頸,包括當(dāng)前的PCIE、NVME等存儲(chǔ)接口的帶寬速度遠(yuǎn)跟不上外部網(wǎng)絡(luò)的性能增長(zhǎng)。
華為的思路是要提升存儲(chǔ)性能,需要突破馮諾依曼架構(gòu)的限制,從以CPU為中心,轉(zhuǎn)向以內(nèi)存為中心、以數(shù)據(jù)為中心,從搬移數(shù)據(jù)轉(zhuǎn)向搬移計(jì)算,打破性能墻。
還有一種方案提高數(shù)據(jù)存取的效率,當(dāng)面臨海量數(shù)據(jù)存取的時(shí)候,用最少的存取,實(shí)現(xiàn)最大的應(yīng)用。這就是是分布式存儲(chǔ)。
比如現(xiàn)在火熱的IPFS就是一種比較火熱的分布式存儲(chǔ)系統(tǒng),其核心概念是基于內(nèi)容尋址、版本化、點(diǎn)對(duì)點(diǎn)的超媒體傳輸協(xié)議。也就是數(shù)據(jù)存取直接指向資源,并確保這些數(shù)據(jù)都是來自最近的資源。而不是先找到存放的存儲(chǔ)介質(zhì),在調(diào)取介質(zhì)里的數(shù)據(jù)。這樣就大大減少了存儲(chǔ)介質(zhì)性能對(duì)于數(shù)據(jù)存取的影響。比如一個(gè)10TB的文件,可以打散分布在1000個(gè)邊緣端的存儲(chǔ)介質(zhì)上。而且調(diào)用的時(shí)候,不需要下載到本地,直接調(diào)用1000個(gè)邊緣端的存儲(chǔ)性能。從而實(shí)現(xiàn)數(shù)據(jù)的高效利用。
第三就是新的存儲(chǔ)介質(zhì),包括原子存儲(chǔ)技術(shù)和DNA存儲(chǔ)技術(shù),如果能夠真正研發(fā)出來,就能夠?qū)崿F(xiàn)存儲(chǔ)性能的千倍以上的提升,當(dāng)然目前是理論階段,距離真正落地商業(yè)還有還長(zhǎng)的距離。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼