加速AI,曙光存儲的登頂要義
在性能強、高IOPS等生成式場景成為常態(tài)的情況下,曙光存儲也在近期發(fā)布升級ParaStor分布式全閃存儲產(chǎn)品,進一步強化了在AI應(yīng)用中的性能表現(xiàn)。
生成式AI時代,企業(yè)對于AI的關(guān)注已從通用大模型轉(zhuǎn)移到行業(yè)生產(chǎn)場景中,只有當(dāng)大模型和企業(yè)真實數(shù)據(jù)結(jié)合,才能發(fā)揮出生成式AI最大的價值。
數(shù)據(jù)地位因而被再次提高,存儲在企業(yè)中的優(yōu)先級也被進一步提升。
為什么這么說,一方面算力越來越快,存力跟不上,經(jīng)常導(dǎo)致算力資源空轉(zhuǎn)浪費,一方面數(shù)據(jù)質(zhì)量是喂養(yǎng)模型生成的關(guān)鍵,所以存儲所承載數(shù)據(jù)的質(zhì)量至關(guān)重要。
中科曙光存儲產(chǎn)品事業(yè)部運營總監(jiān)石靜看到,加速,是AI數(shù)據(jù)存儲的核心需求。
在性能強、高IOPS等生成式場景成為常態(tài)的情況下,曙光存儲也在近期發(fā)布升級ParaStor分布式全閃存儲產(chǎn)品,進一步強化了在AI應(yīng)用中的性能表現(xiàn)。
最懂AI的加速存儲方案
賽迪發(fā)布《2024中國分布式存儲市場研究報告》顯示,曙光存儲位居中國AI存儲市場第一。國家信息中心隨后發(fā)布的《智能算力產(chǎn)業(yè)發(fā)展白皮書》,也重磅推介曙光存儲面向推出的“智存”產(chǎn)品,點贊其面向人工智能場景的數(shù)據(jù)存儲能力。
雙重權(quán)威認(rèn)可的背后,是因為曙光存儲抓住了AI數(shù)據(jù)存儲的核心需求——加速。
在以AI大模型為代表的人工智能場景中,加速是數(shù)據(jù)存儲的核心價值,具體路徑是通過縮短數(shù)據(jù)讀寫時間,提升AI大模型的訓(xùn)練效率,減少算力的空轉(zhuǎn)等待時間,從而降低AI成本。
ParaStor分布式全閃存儲被稱為是最懂AI的存儲產(chǎn)品,助力AI整體表現(xiàn)提升20倍以上。業(yè)界首創(chuàng)五級加速方案,讓數(shù)據(jù)無需等待,快,還能更快,包括本地內(nèi)存加速、BurstBuffer加速層、XDS雙棧兼容,減少CPU中斷、網(wǎng)絡(luò)加速(RDMA-Based)、存儲節(jié)點高速層( NVMe SSD-Based )。
石靜認(rèn)為,性能提升20倍以上的關(guān)鍵技術(shù)創(chuàng)新,主要有兩個核心:最強的數(shù)據(jù)底座和最佳的AI應(yīng)用加速套件。
數(shù)據(jù)底座:通過優(yōu)化硬件性能,如利用高速網(wǎng)絡(luò)(400G NDR IB卡或RoCE網(wǎng)絡(luò))與NVMe SSD閃存的協(xié)同作用,實現(xiàn)存儲系統(tǒng)的最高性能,使存儲能夠在不改變應(yīng)用層操作的情況下發(fā)揮最佳效能。
AI應(yīng)用加速套件:采用五級加速技術(shù),從數(shù)據(jù)流動路徑的不同節(jié)點上加速I/O通路。第一層利用計算節(jié)點的本地內(nèi)存加速熱點數(shù)據(jù),降低延時至納秒級;第二層:在GPU服務(wù)器本地的NVMe盤上緩存關(guān)鍵數(shù)據(jù),避免跨網(wǎng)絡(luò)訪問,顯著提升小文件讀寫性能;第三層:在網(wǎng)絡(luò)層采用RDMA技術(shù),充分利用網(wǎng)絡(luò)帶寬;第四層:優(yōu)化NVMe全閃存性能,提升存儲系統(tǒng)的整體效能;第五層:通過GPU直通存儲,減少CPU負(fù)載,實現(xiàn)GPU與存儲的直接交互,進一步縮短I/O通路和降低延時。
最近曙光存儲憑借ParaStor分布式存儲強大的性能優(yōu)勢,及在多個AI創(chuàng)新業(yè)務(wù)場景中的優(yōu)秀實踐,榮獲2024年度閃存風(fēng)云榜“2024年度AI與閃存融合應(yīng)用創(chuàng)新獎“。
具體到衡量存儲支撐AI算力的性能上,主要有兩個指標(biāo):第一,帶寬,體現(xiàn)在每一個節(jié)點,每秒鐘能夠提供的吞吐量。ParaStor分布式全閃產(chǎn)品,單個節(jié)點可以做到最高150GB/s帶寬;第二,IOPS(每秒輸入輸出操作數(shù)),智存ParaStor產(chǎn)品,每秒鐘可以給用戶提供320萬IOPS。
“整個I/O通路上存儲的每一個環(huán)節(jié)都不應(yīng)該成為短板。”石靜強調(diào),存儲必須快速、高效,并能應(yīng)對大模型時代的復(fù)雜需求,才能支撐AI的高速發(fā)展。
所以在生成式AI時代,存儲產(chǎn)業(yè)面臨三個關(guān)鍵要求:
極致性能:隨著模型參數(shù)量的指數(shù)級增加,計算復(fù)雜度提升,對存儲性能提出了極高要求。存儲必須具備足夠的帶寬和高并發(fā)IOPS能力,確保在訓(xùn)練和推理過程中不會成為計算的瓶頸。
業(yè)務(wù)契合度:隨著業(yè)務(wù)需求的個性化發(fā)展,存儲系統(tǒng)需能夠與具體應(yīng)用相結(jié)合,進行針對性的調(diào)優(yōu)和定制開發(fā),以支持從通用大模型到垂直大模型的轉(zhuǎn)變。
數(shù)據(jù)安全:存儲系統(tǒng)不僅需要保障數(shù)據(jù)的完整性和可靠性,還需提供精細(xì)的權(quán)限管理和審計功能,防止數(shù)據(jù)篡改和未授權(quán)訪問,確保數(shù)據(jù)在整個I/O通路中的安全。
加速AI的多層次優(yōu)化邏輯
AI工作流程主要被分為訓(xùn)練和推理的兩大主要階段,具體又可以細(xì)分為數(shù)據(jù)導(dǎo)入清洗、預(yù)處理、訓(xùn)練、推理、數(shù)據(jù)歸檔,曙光深入分析五個階段對存儲系統(tǒng)的不同需求,并進行了針對性的優(yōu)化,以更好地支持AI應(yīng)用的高效運行。
數(shù)據(jù)導(dǎo)入與清洗階段:存儲系統(tǒng)需要具備多元數(shù)據(jù)異構(gòu)管理能力。這意味著存儲系統(tǒng)必須支持多種協(xié)議,并且能夠進行協(xié)議互通,以便高效地處理和管理不同來源的數(shù)據(jù)。
數(shù)據(jù)預(yù)處理階段:需要將數(shù)據(jù)讀入系統(tǒng),執(zhí)行單流讀操作后再進行分塊處理并實現(xiàn)隨機訪問,對存儲系統(tǒng)的IOPS提出較高要求。
數(shù)據(jù)訓(xùn)練階段:存儲系統(tǒng)需要保障高IOPS和低延時,以應(yīng)對頻繁的隨機訪問需求,加速訓(xùn)練數(shù)據(jù)的讀取和處理。此外為了防止訓(xùn)練過程中斷,需要定期執(zhí)行Checkpoint操作,要求存儲系統(tǒng)具備高帶寬支持。
數(shù)據(jù)推理階段:會涉及分發(fā)、低延時、高并發(fā)等需求,存儲系統(tǒng)必須能夠快速響應(yīng)并處理多個并發(fā)請求,以滿足AI推理的實時性要求。
數(shù)據(jù)歸檔階段:需要具備全生命周期管理能力,從熱存儲、溫存儲到冷存儲,確保數(shù)據(jù)在整個生命周期中的有效管理和歸檔。這要求存儲系統(tǒng)能夠在不同介質(zhì)之間實現(xiàn)數(shù)據(jù)的自由流動,并根據(jù)不同需求動態(tài)調(diào)整存儲策略。
曙光存儲會基于這一框架進行需求分析,并進一步做深度優(yōu)化。比如在AI模型訓(xùn)練過程中,對于存儲挑戰(zhàn)最大的是伴隨很多隨機原數(shù)據(jù)訪問,并有較高IOPS及低時延需求。曙光存儲通過了解客戶具體的時延要求和IOPS目標(biāo),進一步分析調(diào)整原數(shù)據(jù)布局、優(yōu)化數(shù)據(jù)分發(fā)策略、數(shù)據(jù)通訊,結(jié)合存儲軟件特點,并與GPU性能表現(xiàn)相結(jié)合,對整體系統(tǒng)進行綜合優(yōu)化。
整個分析思路從宏觀需求分析逐步細(xì)化到具體技術(shù)調(diào)整,最終總結(jié)出多層次的優(yōu)化策略,為用戶提供更高效的AI存儲解決方案。
針對當(dāng)前十分火爆的“智元機器人”,考慮到其對于低時延、高性能和智能化運維的三個關(guān)鍵需求,曙光存儲設(shè)計了一套專門的解決方案。低時延方面,通過全閃分布式存儲、NVMe盤和RoCE高速網(wǎng)絡(luò),顯著降低數(shù)據(jù)傳輸時延。同時采用精細(xì)化資源調(diào)配策略,優(yōu)先處理緊急請求,提升系統(tǒng)響應(yīng)速度;高性能方面,提供最強的數(shù)據(jù)底座與最佳應(yīng)用套件;智能化運維方面,引入AI進行故障預(yù)測和智能運維管理,確保系統(tǒng)在用戶前端呈現(xiàn)出最佳狀態(tài),提升用戶體驗。
生成式AI時代,存儲已經(jīng)不僅是數(shù)據(jù)的容器,更成為驅(qū)動企業(yè)創(chuàng)新與發(fā)展的關(guān)鍵引擎。曙光存儲通過不斷優(yōu)化和創(chuàng)新,為AI應(yīng)用提供了強大而高效的支持。隨著AI技術(shù)的不斷進步,存儲的角色將更加重要,曙光也將進一步助力企業(yè)在智能化轉(zhuǎn)型中實現(xiàn)突破,開創(chuàng)數(shù)字經(jīng)濟新篇章。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼