


直播結(jié)束,大家稍后可在視頻區(qū)觀看回放視頻。
直播結(jié)束,大家稍后可在視頻區(qū)觀看回放視頻。
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
1
簽到
簽到
簽到
簽到
通過AI優(yōu)化業(yè)務(wù)流程和決策支持的核心技術(shù)有哪些?
影響AI應(yīng)用效果的核心技術(shù)包括:AI模型的選型及調(diào)優(yōu);高質(zhì)量的數(shù)據(jù)采集及數(shù)據(jù)治理;高效能的、支持AI工程化部署和擴(kuò)容的AI基礎(chǔ)設(shè)施平臺(tái);行業(yè)領(lǐng)域知識(shí)積淀等。
簽到
AI-First戰(zhàn)略與企業(yè)的數(shù)字化轉(zhuǎn)型有什么聯(lián)系?
Dell AI-First戰(zhàn)略目標(biāo)是幫助企業(yè)用戶通過預(yù)驗(yàn)證的AI解決方案體系,更快速、更高效地實(shí)現(xiàn)AI應(yīng)用的工程化落地,從而借助AI技術(shù)幫助企業(yè)用戶加速數(shù)字化轉(zhuǎn)型進(jìn)程。
簽到
簽到
請問哪些企業(yè)已經(jīng)成功應(yīng)用了AI-First戰(zhàn)略,取得了什么顯著成果?
過往我們已經(jīng)看到很多企業(yè)用戶借助AI技術(shù)和Dell AI解決方案,實(shí)現(xiàn)AI應(yīng)用的場景化落地,幫助企業(yè)用戶實(shí)現(xiàn)降本增效,比如制造行業(yè)用戶通過AI技術(shù)實(shí)現(xiàn)工業(yè)產(chǎn)品質(zhì)檢、行業(yè)知識(shí)庫搭建、工藝參數(shù)優(yōu)化、預(yù)測性維護(hù)等;零售行業(yè)用戶通過AI技術(shù)實(shí)現(xiàn)精準(zhǔn)營銷、商品智能識(shí)別分類與貨損防護(hù);金融行業(yè)用戶將AI技術(shù)應(yīng)用于保險(xiǎn)理賠、風(fēng)控、算法交易等領(lǐng)域。
簽到
戴爾如何通過技術(shù)基礎(chǔ)設(shè)施支持AI-First戰(zhàn)略?
Dell AI-First技術(shù)戰(zhàn)略包含基礎(chǔ)設(shè)施、數(shù)據(jù)、開放生態(tài)、服務(wù)、應(yīng)用場景用例等多個(gè)維度,在AI基礎(chǔ)設(shè)施涉及的領(lǐng)域包含AI異構(gòu)計(jì)算、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)保護(hù)、數(shù)據(jù)中心基礎(chǔ)設(shè)施,以及前端AI PC、AI工作站等。全棧式AI解決方案,涉及到IT基礎(chǔ)設(shè)施領(lǐng)域的很多組件,只有經(jīng)過有效的整合、適配和預(yù)驗(yàn)證工作,才能幫助企業(yè)在構(gòu)建AI平臺(tái)的進(jìn)程中減少工程化的困難和挑戰(zhàn)。
簽到
AI-First戰(zhàn)略在系統(tǒng)架構(gòu)和IT資源方面需要做哪些調(diào)整來支持AI應(yīng)用的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)需求?
AI時(shí)代,特別是針對LLM的預(yù)訓(xùn)練/微調(diào)和推理部署,在IT系統(tǒng)層面,需要應(yīng)對的挑戰(zhàn)和改變包括但不限于:1)AI應(yīng)用所消耗的計(jì)算力呈現(xiàn)指數(shù)級增長,更大規(guī)模的AI異構(gòu)計(jì)算平臺(tái)的部署與運(yùn)維;2)AI計(jì)算從單機(jī)計(jì)算向大規(guī)模分布式訓(xùn)練的轉(zhuǎn)化;3)AI訓(xùn)練及推理過程中海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與數(shù)據(jù)保護(hù);4)AI分布式訓(xùn)練過程中對多機(jī)通信的帶寬壓力;5)高功耗的GPU加速服務(wù)器需要進(jìn)行數(shù)據(jù)中心基礎(chǔ)設(shè)施的供電、散熱及承重的重新設(shè)計(jì)。
簽到
目前企業(yè)在推行AI-First戰(zhàn)略過程中面臨的最大技術(shù)挑戰(zhàn)是什么?
支撐AI應(yīng)用開發(fā)與模型訓(xùn)練的數(shù)據(jù)準(zhǔn)備;AI平臺(tái)的快速搭建、快速投產(chǎn)。
AI-First戰(zhàn)略對不同行業(yè)的應(yīng)用場景有哪些不同?
AI在不同行業(yè)的應(yīng)用場景是比較多元的,有一些通用的場景如人臉識(shí)別、智能視頻分析、智能客服、對話式機(jī)器人、行業(yè)知識(shí)庫等,更多的是與行業(yè)領(lǐng)域結(jié)合的行業(yè)應(yīng)用場景,比如金融行業(yè)的算法交易、智能風(fēng)控、智能閃賠;制造行業(yè)的產(chǎn)品質(zhì)檢、工藝參數(shù)優(yōu)化、自動(dòng)化排產(chǎn);零售行業(yè)的無人貨架、智能稱重、商品識(shí)別、精準(zhǔn)營銷等;醫(yī)療/法律領(lǐng)域的專業(yè)知識(shí)問答機(jī)器人、專業(yè)文案生成等。
簽到
簽到
簽到
簽到
AI-First戰(zhàn)略怎么幫助企業(yè)在競爭中領(lǐng)先?
我們寄希望通過全棧式的AI平臺(tái)解決方案,幫助企業(yè)用戶縮短AI應(yīng)用的開發(fā)周期,更快投產(chǎn),更快實(shí)現(xiàn)業(yè)務(wù)成效。
簽到
簽到
簽到
簽到
如何評估企業(yè)在AI-First戰(zhàn)略中的技術(shù)成熟度?
我們認(rèn)為可以從幾個(gè)不同的維度來進(jìn)行成熟度評估:人員,包括掌握AI技術(shù)的人力儲(chǔ)備及技術(shù)經(jīng)驗(yàn);數(shù)據(jù),用于支撐AI應(yīng)用開發(fā)和模型迭代的數(shù)據(jù)量及數(shù)據(jù)質(zhì)量;用例,AI應(yīng)用場景的選型、技術(shù)實(shí)現(xiàn)的難度、AI應(yīng)用效果的預(yù)期等。
簽到
簽到
簽到
簽到
現(xiàn)代化AI數(shù)據(jù)中心的硬件架構(gòu)有哪些關(guān)鍵組件?
現(xiàn)代化的AI數(shù)據(jù)中心的硬件組件,包括AI異構(gòu)計(jì)算平臺(tái)、AI數(shù)據(jù)存儲(chǔ)平臺(tái)、網(wǎng)絡(luò)通信平臺(tái)、集群管理與資源調(diào)度軟件平臺(tái)、AI數(shù)據(jù)中心基礎(chǔ)設(shè)施等。
簽到
如何利用高性能計(jì)算(HPC)優(yōu)化AI數(shù)據(jù)中心的整體性能?
HPC在AI數(shù)據(jù)中心的應(yīng)用場景,主要在AI模型預(yù)訓(xùn)練和大規(guī)模微調(diào)場景,通過多機(jī)并行實(shí)現(xiàn)AI GPU分布式訓(xùn)練,硬件層面需要高效能的網(wǎng)絡(luò)和I/O存儲(chǔ)設(shè)備支持,軟件層面需要在框架軟件或者加速庫軟件針對AI模型機(jī)制進(jìn)行集群邏輯拓?fù)浜屯ㄐ艡C(jī)制的優(yōu)化,如當(dāng)前廣泛使用的NVIDIA NCCL、DeepSpeed正在做的工作,以提升GPU分布式訓(xùn)練過程中的實(shí)際并行加速效率。
簽到
簽到
數(shù)據(jù)中心的冷卻系統(tǒng)在AI計(jì)算中的重要性體現(xiàn)在哪里?
目前在AI計(jì)算中,GPU是使用最為廣泛的加速技術(shù),而GPU屬于高功耗的部件,配套GPU服務(wù)器以及數(shù)據(jù)中心冷卻系統(tǒng),包括智能風(fēng)冷,以及液冷技術(shù)(冷板式/浸沒式),針對不同功耗、不同密度的GPU計(jì)算硬件,設(shè)計(jì)針對性的冷卻解決方案。
簽到
簽到
簽到
戴爾的PowerEdge服務(wù)器如何滿足AI工作負(fù)載的特殊需求?戴爾的PowerEdge服務(wù)器設(shè)計(jì)是否上考慮了AI工作負(fù)載的高算力需求?采用了什么加速器?
Dell在過去4代PowerEdge服務(wù)器平臺(tái)上,都有專門針對GPU設(shè)計(jì)的服務(wù)器機(jī)型。在這些機(jī)型上,針對服務(wù)器的供電、散熱設(shè)計(jì),以及GPU之間的通信機(jī)制,iDRAC帶外管理面向GPU的實(shí)時(shí)監(jiān)控,都與通用的x86服務(wù)器有所不同。Dell目前可以支持NVIDIA、AMD、Intel等廠商的AI加速技術(shù)。
簽到
簽到
簽到
在數(shù)據(jù)中心中,如何處理AI模型訓(xùn)練對算力和存儲(chǔ)的高要求?
算力層面,通過橫向擴(kuò)展的GPU計(jì)算集群,多機(jī)GPU分布式訓(xùn)練,提供更高的計(jì)算性能,目前在大規(guī)模AI模型訓(xùn)練中都在采用這樣的架構(gòu)技術(shù)。存儲(chǔ)層面,需要采用橫向擴(kuò)展的并行或者分布式存儲(chǔ)架構(gòu),以實(shí)現(xiàn)更高的存儲(chǔ)帶寬和容量擴(kuò)展,同時(shí)在存儲(chǔ)協(xié)議支持、多租戶支持、動(dòng)態(tài)數(shù)據(jù)存儲(chǔ)訪問特性上,需要做更全面的技術(shù)支持。
簽到
數(shù)據(jù)中心現(xiàn)代化對于企業(yè)實(shí)施AI戰(zhàn)略有何幫助?其中哪些是AI應(yīng)用所需要的關(guān)鍵條件?通過現(xiàn)代化改造,企業(yè)如何更好地支持AI模型的訓(xùn)練和部署?
我們會(huì)把AI數(shù)據(jù)中心的關(guān)鍵組件,以四個(gè)漢字概括:算、網(wǎng)、存、管。
如何通過網(wǎng)絡(luò)優(yōu)化來提升AI數(shù)據(jù)中心的吞吐量和降低延遲?
提升單端口的通道帶寬;提高單臺(tái)AI計(jì)算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機(jī)制。提升單端口的通道帶寬;提高單臺(tái)AI計(jì)算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機(jī)制。通過對無損網(wǎng)絡(luò)的支持,解決基于流的擁塞控制和流量均衡。提升單端口的通道帶寬;提高單臺(tái)AI計(jì)算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機(jī)制。提升單端口的通道帶寬;提高單臺(tái)AI計(jì)算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機(jī)制。通過對無損網(wǎng)絡(luò)的支持,解決基于流的擁塞控制和流量均衡。
在多租戶環(huán)境下,如何確保AI數(shù)據(jù)中心的安全性和穩(wěn)定性?
存儲(chǔ)系統(tǒng)層面,需要更好的支持多租戶的實(shí)現(xiàn)機(jī)制;同時(shí),在系統(tǒng)管理平臺(tái)軟件層面,需要對用戶角色、資源訪問權(quán)限、數(shù)據(jù)訪問權(quán)限,做更精細(xì)化地設(shè)置與管理。
在邊緣計(jì)算與數(shù)據(jù)中心的結(jié)合中,AI應(yīng)用如何獲益?
AI與邊緣計(jì)算的結(jié)合,是目前AI技術(shù)應(yīng)用的一個(gè)熱點(diǎn)和趨勢,讓AI技術(shù)更快速響應(yīng)業(yè)務(wù),降低網(wǎng)絡(luò)通信壓力。在邊緣場景實(shí)現(xiàn)AI技術(shù),可能需要比數(shù)據(jù)中心場景,需要做更多的AI模型輕量化工作(如模型量化、壓縮、剪枝等),配套AI模型應(yīng)用的硬件平臺(tái)可能也需要對部署環(huán)境有更強(qiáng)的適應(yīng)能力(如機(jī)箱尺寸、溫度濕度等環(huán)境適應(yīng)能力)。
如何確保數(shù)據(jù)中心的擴(kuò)展性以滿足不斷增長的AI需求?
需要要求AI數(shù)據(jù)中心的各個(gè)組件,包括網(wǎng)絡(luò)架構(gòu)、存儲(chǔ)架構(gòu)、機(jī)房設(shè)施硬件架構(gòu)等,在設(shè)計(jì)之出就要有充分的可擴(kuò)展性,這也是Dell AI-First技術(shù)藍(lán)圖和參考架構(gòu)的價(jià)值所在。
簽到
簽到
簽到
簽到
簽到
簽到
戴爾與NVIDIA合作的硬件和軟件技術(shù)有哪些核心亮點(diǎn)?
Dell和NVIDIA是全球戰(zhàn)略合作伙伴,在Dell AI-First技術(shù)戰(zhàn)略藍(lán)圖中,與NVIDIA的技術(shù)合作是非常重要的環(huán)節(jié)。包括NVIDIA AI軟件套件包NVIDIA AI Enterprise,是Dell AI解決方案重要的軟件組件部分。Dell PowerScale數(shù)據(jù)存儲(chǔ)系統(tǒng),今年年初通過了NVIDIA SuperPOD的官方存儲(chǔ)認(rèn)證,是業(yè)界首款基于以太網(wǎng)的SuperPOD存儲(chǔ)認(rèn)證系統(tǒng)。Dell計(jì)算平臺(tái),提供對NVIDIA全系列數(shù)據(jù)中心GPU的選型支持。
AI工廠在數(shù)據(jù)處理和模型訓(xùn)練上提供了哪些技術(shù)優(yōu)勢?
AI factory和多租戶的AI數(shù)據(jù)中心主要是場景不同,AI factory主要專注于基座大模型的預(yù)訓(xùn)練和定制化大模型的微調(diào),而多租戶的AI數(shù)據(jù)中心面向需求更廣泛些。美國的主要基座大模型startup基本都是租用云服務(wù)商的基礎(chǔ)設(shè)施,AI factory在物理隔離上要簡單些。
簽到
NVIDIA的GPU技術(shù)如何在AI工廠中加速深度學(xué)習(xí)模型的訓(xùn)練?
簽到
簽到
簽到
簽到
簽到
Dell AI Factory如何實(shí)現(xiàn)多種AI工具和平臺(tái)的集成?
首先,Dell AI Factory是一套預(yù)驗(yàn)證的解決方案架構(gòu),各個(gè)軟件組件是經(jīng)過預(yù)先測試和驗(yàn)證的,以保證版本之間的軟件兼容性;另外,Dell也可以提供如PowerAnsible 實(shí)現(xiàn)快速部署和自動(dòng)化運(yùn)維的軟件工具包。
簽到
簽到
AI優(yōu)化的以太網(wǎng)Fabric架構(gòu)如何提升數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬和穩(wěn)定性?
通過rail或spine+leaf的網(wǎng)絡(luò)架構(gòu),采用高密度400G.或800G交換機(jī),400G到GPU server的連接,來增加帶寬實(shí)現(xiàn)高速互聯(lián)
簽到
在AI計(jì)算中,如何通過以太網(wǎng)Fabric降低通信延遲和提高吞吐量?
通過RoCE V2,cut through switching,dynamic routing,基于流的擁塞控制和流量均衡來降低延遲和提高網(wǎng)絡(luò)帶寬效能
AI優(yōu)化的Fabric網(wǎng)絡(luò)架構(gòu)如何支持生成式AI模型的大規(guī)模分布式訓(xùn)練?
在AI fabric 的scalability方面,通過Rail或spine+leaf的兩層甚至三層架構(gòu),來支持大規(guī)模GPU cluster
AI工廠中的高性能計(jì)算如何提升生成式AI的應(yīng)用效果?
現(xiàn)在AI工廠的應(yīng)用主要集中在哪些領(lǐng)域?
AI工廠不是指專注某些特殊應(yīng)用,很多客戶由于各種原因無法使用GPU多租戶的方式,選擇自建AI工廠
戴爾的網(wǎng)絡(luò)解決方案如何幫助企業(yè)實(shí)現(xiàn)AI優(yōu)化的Fabric部署
Dell的Broadcom Tomahawak4或5的400G,800G交換機(jī)加上SONiC 的OS對AI的支持,可以實(shí)現(xiàn)8000GPU以內(nèi)的fabric需求
戴爾推薦哪些服務(wù)器型號適用于高性能計(jì)算和人工智能工作負(fù)載?
簽到
戴爾的Live Optics工具如何協(xié)助基礎(chǔ)設(shè)施規(guī)劃,它有哪些獨(dú)特功能?
在配置算力基礎(chǔ)架構(gòu)時(shí),應(yīng)如何考慮散熱管理以確保設(shè)備的可靠性和性能?
通過AI優(yōu)化業(yè)務(wù)流程和決策支持的核心技術(shù)有哪些?
影響AI應(yīng)用效果的核心技術(shù)包括:AI模型的選型及調(diào)優(yōu);高質(zhì)量的數(shù)據(jù)采集及數(shù)據(jù)治理;高效能的、支持AI工程化部署和擴(kuò)容的AI基礎(chǔ)設(shè)施平臺(tái);行業(yè)領(lǐng)域知識(shí)積淀等。
AI-First戰(zhàn)略與企業(yè)的數(shù)字化轉(zhuǎn)型有什么聯(lián)系?
Dell AI-First戰(zhàn)略目標(biāo)是幫助企業(yè)用戶通過預(yù)驗(yàn)證的AI解決方案體系,更快速、更高效地實(shí)現(xiàn)AI應(yīng)用的工程化落地,從而借助AI技術(shù)幫助企業(yè)用戶加速數(shù)字化轉(zhuǎn)型進(jìn)程。
請問哪些企業(yè)已經(jīng)成功應(yīng)用了AI-First戰(zhàn)略,取得了什么顯著成果?
過往我們已經(jīng)看到很多企業(yè)用戶借助AI技術(shù)和Dell AI解決方案,實(shí)現(xiàn)AI應(yīng)用的場景化落地,幫助企業(yè)用戶實(shí)現(xiàn)降本增效,比如制造行業(yè)用戶通過AI技術(shù)實(shí)現(xiàn)工業(yè)產(chǎn)品質(zhì)檢、行業(yè)知識(shí)庫搭建、工藝參數(shù)優(yōu)化、預(yù)測性維護(hù)等;零售行業(yè)用戶通過AI技術(shù)實(shí)現(xiàn)精準(zhǔn)營銷、商品智能識(shí)別分類與貨損防護(hù);金融行業(yè)用戶將AI技術(shù)應(yīng)用于保險(xiǎn)理賠、風(fēng)控、算法交易等領(lǐng)域。
戴爾如何通過技術(shù)基礎(chǔ)設(shè)施支持AI-First戰(zhàn)略?
Dell AI-First技術(shù)戰(zhàn)略包含基礎(chǔ)設(shè)施、數(shù)據(jù)、開放生態(tài)、服務(wù)、應(yīng)用場景用例等多個(gè)維度,在AI基礎(chǔ)設(shè)施涉及的領(lǐng)域包含AI異構(gòu)計(jì)算、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)保護(hù)、數(shù)據(jù)中心基礎(chǔ)設(shè)施,以及前端AI PC、AI工作站等。全棧式AI解決方案,涉及到IT基礎(chǔ)設(shè)施領(lǐng)域的很多組件,只有經(jīng)過有效的整合、適配和預(yù)驗(yàn)證工作,才能幫助企業(yè)在構(gòu)建AI平臺(tái)的進(jìn)程中減少工程化的困難和挑戰(zhàn)。
AI-First戰(zhàn)略在系統(tǒng)架構(gòu)和IT資源方面需要做哪些調(diào)整來支持AI應(yīng)用的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)需求?
AI時(shí)代,特別是針對LLM的預(yù)訓(xùn)練/微調(diào)和推理部署,在IT系統(tǒng)層面,需要應(yīng)對的挑戰(zhàn)和改變包括但不限于:1)AI應(yīng)用所消耗的計(jì)算力呈現(xiàn)指數(shù)級增長,更大規(guī)模的AI異構(gòu)計(jì)算平臺(tái)的部署與運(yùn)維;2)AI計(jì)算從單機(jī)計(jì)算向大規(guī)模分布式訓(xùn)練的轉(zhuǎn)化;3)AI訓(xùn)練及推理過程中海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與數(shù)據(jù)保護(hù);4)AI分布式訓(xùn)練過程中對多機(jī)通信的帶寬壓力;5)高功耗的GPU加速服務(wù)器需要進(jìn)行數(shù)據(jù)中心基礎(chǔ)設(shè)施的供電、散熱及承重的重新設(shè)計(jì)。
目前企業(yè)在推行AI-First戰(zhàn)略過程中面臨的最大技術(shù)挑戰(zhàn)是什么?
支撐AI應(yīng)用開發(fā)與模型訓(xùn)練的數(shù)據(jù)準(zhǔn)備;AI平臺(tái)的快速搭建、快速投產(chǎn)。
AI-First戰(zhàn)略對不同行業(yè)的應(yīng)用場景有哪些不同?
AI在不同行業(yè)的應(yīng)用場景是比較多元的,有一些通用的場景如人臉識(shí)別、智能視頻分析、智能客服、對話式機(jī)器人、行業(yè)知識(shí)庫等,更多的是與行業(yè)領(lǐng)域結(jié)合的行業(yè)應(yīng)用場景,比如金融行業(yè)的算法交易、智能風(fēng)控、智能閃賠;制造行業(yè)的產(chǎn)品質(zhì)檢、工藝參數(shù)優(yōu)化、自動(dòng)化排產(chǎn);零售行業(yè)的無人貨架、智能稱重、商品識(shí)別、精準(zhǔn)營銷等;醫(yī)療/法律領(lǐng)域的專業(yè)知識(shí)問答機(jī)器人、專業(yè)文案生成等。
AI-First戰(zhàn)略怎么幫助企業(yè)在競爭中領(lǐng)先?
我們寄希望通過全棧式的AI平臺(tái)解決方案,幫助企業(yè)用戶縮短AI應(yīng)用的開發(fā)周期,更快投產(chǎn),更快實(shí)現(xiàn)業(yè)務(wù)成效。
如何評估企業(yè)在AI-First戰(zhàn)略中的技術(shù)成熟度?
我們認(rèn)為可以從幾個(gè)不同的維度來進(jìn)行成熟度評估:人員,包括掌握AI技術(shù)的人力儲(chǔ)備及技術(shù)經(jīng)驗(yàn);數(shù)據(jù),用于支撐AI應(yīng)用開發(fā)和模型迭代的數(shù)據(jù)量及數(shù)據(jù)質(zhì)量;用例,AI應(yīng)用場景的選型、技術(shù)實(shí)現(xiàn)的難度、AI應(yīng)用效果的預(yù)期等。
現(xiàn)代化AI數(shù)據(jù)中心的硬件架構(gòu)有哪些關(guān)鍵組件?
現(xiàn)代化的AI數(shù)據(jù)中心的硬件組件,包括AI異構(gòu)計(jì)算平臺(tái)、AI數(shù)據(jù)存儲(chǔ)平臺(tái)、網(wǎng)絡(luò)通信平臺(tái)、集群管理與資源調(diào)度軟件平臺(tái)、AI數(shù)據(jù)中心基礎(chǔ)設(shè)施等。
如何利用高性能計(jì)算(HPC)優(yōu)化AI數(shù)據(jù)中心的整體性能?
HPC在AI數(shù)據(jù)中心的應(yīng)用場景,主要在AI模型預(yù)訓(xùn)練和大規(guī)模微調(diào)場景,通過多機(jī)并行實(shí)現(xiàn)AI GPU分布式訓(xùn)練,硬件層面需要高效能的網(wǎng)絡(luò)和I/O存儲(chǔ)設(shè)備支持,軟件層面需要在框架軟件或者加速庫軟件針對AI模型機(jī)制進(jìn)行集群邏輯拓?fù)浜屯ㄐ艡C(jī)制的優(yōu)化,如當(dāng)前廣泛使用的NVIDIA NCCL、DeepSpeed正在做的工作,以提升GPU分布式訓(xùn)練過程中的實(shí)際并行加速效率。
數(shù)據(jù)中心的冷卻系統(tǒng)在AI計(jì)算中的重要性體現(xiàn)在哪里?
目前在AI計(jì)算中,GPU是使用最為廣泛的加速技術(shù),而GPU屬于高功耗的部件,配套GPU服務(wù)器以及數(shù)據(jù)中心冷卻系統(tǒng),包括智能風(fēng)冷,以及液冷技術(shù)(冷板式/浸沒式),針對不同功耗、不同密度的GPU計(jì)算硬件,設(shè)計(jì)針對性的冷卻解決方案。
戴爾的PowerEdge服務(wù)器如何滿足AI工作負(fù)載的特殊需求?戴爾的PowerEdge服務(wù)器設(shè)計(jì)是否上考慮了AI工作負(fù)載的高算力需求?采用了什么加速器?
Dell在過去4代PowerEdge服務(wù)器平臺(tái)上,都有專門針對GPU設(shè)計(jì)的服務(wù)器機(jī)型。在這些機(jī)型上,針對服務(wù)器的供電、散熱設(shè)計(jì),以及GPU之間的通信機(jī)制,iDRAC帶外管理面向GPU的實(shí)時(shí)監(jiān)控,都與通用的x86服務(wù)器有所不同。Dell目前可以支持NVIDIA、AMD、Intel等廠商的AI加速技術(shù)。
簽到
在數(shù)據(jù)中心中,如何處理AI模型訓(xùn)練對算力和存儲(chǔ)的高要求?
算力層面,通過橫向擴(kuò)展的GPU計(jì)算集群,多機(jī)GPU分布式訓(xùn)練,提供更高的計(jì)算性能,目前在大規(guī)模AI模型訓(xùn)練中都在采用這樣的架構(gòu)技術(shù)。存儲(chǔ)層面,需要采用橫向擴(kuò)展的并行或者分布式存儲(chǔ)架構(gòu),以實(shí)現(xiàn)更高的存儲(chǔ)帶寬和容量擴(kuò)展,同時(shí)在存儲(chǔ)協(xié)議支持、多租戶支持、動(dòng)態(tài)數(shù)據(jù)存儲(chǔ)訪問特性上,需要做更全面的技術(shù)支持。
數(shù)據(jù)中心現(xiàn)代化對于企業(yè)實(shí)施AI戰(zhàn)略有何幫助?其中哪些是AI應(yīng)用所需要的關(guān)鍵條件?通過現(xiàn)代化改造,企業(yè)如何更好地支持AI模型的訓(xùn)練和部署?
我們會(huì)把AI數(shù)據(jù)中心的關(guān)鍵組件,以四個(gè)漢字概括:算、網(wǎng)、存、管。
如何通過網(wǎng)絡(luò)優(yōu)化來提升AI數(shù)據(jù)中心的吞吐量和降低延遲?
提升單端口的通道帶寬;提高單臺(tái)AI計(jì)算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機(jī)制。提升單端口的通道帶寬;提高單臺(tái)AI計(jì)算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機(jī)制。通過對無損網(wǎng)絡(luò)的支持,解決基于流的擁塞控制和流量均衡。提升單端口的通道帶寬;提高單臺(tái)AI計(jì)算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機(jī)制。提升單端口的通道帶寬;提高單臺(tái)AI計(jì)算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機(jī)制。通過對無損網(wǎng)絡(luò)的支持,解決基于流的擁塞控制和流量均衡。
在多租戶環(huán)境下,如何確保AI數(shù)據(jù)中心的安全性和穩(wěn)定性?
存儲(chǔ)系統(tǒng)層面,需要更好的支持多租戶的實(shí)現(xiàn)機(jī)制;同時(shí),在系統(tǒng)管理平臺(tái)軟件層面,需要對用戶角色、資源訪問權(quán)限、數(shù)據(jù)訪問權(quán)限,做更精細(xì)化地設(shè)置與管理。
在邊緣計(jì)算與數(shù)據(jù)中心的結(jié)合中,AI應(yīng)用如何獲益?
AI與邊緣計(jì)算的結(jié)合,是目前AI技術(shù)應(yīng)用的一個(gè)熱點(diǎn)和趨勢,讓AI技術(shù)更快速響應(yīng)業(yè)務(wù),降低網(wǎng)絡(luò)通信壓力。在邊緣場景實(shí)現(xiàn)AI技術(shù),可能需要比數(shù)據(jù)中心場景,需要做更多的AI模型輕量化工作(如模型量化、壓縮、剪枝等),配套AI模型應(yīng)用的硬件平臺(tái)可能也需要對部署環(huán)境有更強(qiáng)的適應(yīng)能力(如機(jī)箱尺寸、溫度濕度等環(huán)境適應(yīng)能力)。
如何確保數(shù)據(jù)中心的擴(kuò)展性以滿足不斷增長的AI需求?
需要要求AI數(shù)據(jù)中心的各個(gè)組件,包括網(wǎng)絡(luò)架構(gòu)、存儲(chǔ)架構(gòu)、機(jī)房設(shè)施硬件架構(gòu)等,在設(shè)計(jì)之出就要有充分的可擴(kuò)展性,這也是Dell AI-First技術(shù)藍(lán)圖和參考架構(gòu)的價(jià)值所在。
戴爾與NVIDIA合作的硬件和軟件技術(shù)有哪些核心亮點(diǎn)?
Dell和NVIDIA是全球戰(zhàn)略合作伙伴,在Dell AI-First技術(shù)戰(zhàn)略藍(lán)圖中,與NVIDIA的技術(shù)合作是非常重要的環(huán)節(jié)。包括NVIDIA AI軟件套件包NVIDIA AI Enterprise,是Dell AI解決方案重要的軟件組件部分。Dell PowerScale數(shù)據(jù)存儲(chǔ)系統(tǒng),今年年初通過了NVIDIA SuperPOD的官方存儲(chǔ)認(rèn)證,是業(yè)界首款基于以太網(wǎng)的SuperPOD存儲(chǔ)認(rèn)證系統(tǒng)。Dell計(jì)算平臺(tái),提供對NVIDIA全系列數(shù)據(jù)中心GPU的選型支持。
AI工廠在數(shù)據(jù)處理和模型訓(xùn)練上提供了哪些技術(shù)優(yōu)勢?
AI factory和多租戶的AI數(shù)據(jù)中心主要是場景不同,AI factory主要專注于基座大模型的預(yù)訓(xùn)練和定制化大模型的微調(diào),而多租戶的AI數(shù)據(jù)中心面向需求更廣泛些。美國的主要基座大模型startup基本都是租用云服務(wù)商的基礎(chǔ)設(shè)施,AI factory在物理隔離上要簡單些。
NVIDIA的GPU技術(shù)如何在AI工廠中加速深度學(xué)習(xí)模型的訓(xùn)練?
Dell AI Factory如何實(shí)現(xiàn)多種AI工具和平臺(tái)的集成?
首先,Dell AI Factory是一套預(yù)驗(yàn)證的解決方案架構(gòu),各個(gè)軟件組件是經(jīng)過預(yù)先測試和驗(yàn)證的,以保證版本之間的軟件兼容性;另外,Dell也可以提供如PowerAnsible 實(shí)現(xiàn)快速部署和自動(dòng)化運(yùn)維的軟件工具包。
AI優(yōu)化的以太網(wǎng)Fabric架構(gòu)如何提升數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬和穩(wěn)定性?
通過rail或spine+leaf的網(wǎng)絡(luò)架構(gòu),采用高密度400G.或800G交換機(jī),400G到GPU server的連接,來增加帶寬實(shí)現(xiàn)高速互聯(lián)
在AI計(jì)算中,如何通過以太網(wǎng)Fabric降低通信延遲和提高吞吐量?
通過RoCE V2,cut through switching,dynamic routing,基于流的擁塞控制和流量均衡來降低延遲和提高網(wǎng)絡(luò)帶寬效能
AI優(yōu)化的Fabric網(wǎng)絡(luò)架構(gòu)如何支持生成式AI模型的大規(guī)模分布式訓(xùn)練?
在AI fabric 的scalability方面,通過Rail或spine+leaf的兩層甚至三層架構(gòu),來支持大規(guī)模GPU cluster
AI工廠中的高性能計(jì)算如何提升生成式AI的應(yīng)用效果?
戴爾的網(wǎng)絡(luò)解決方案如何幫助企業(yè)實(shí)現(xiàn)AI優(yōu)化的Fabric部署
Dell的Broadcom Tomahawak4或5的400G,800G交換機(jī)加上SONiC 的OS對AI的支持,可以實(shí)現(xiàn)8000GPU以內(nèi)的fabric需求
戴爾推薦哪些服務(wù)器型號適用于高性能計(jì)算和人工智能工作負(fù)載?
簽到
戴爾的Live Optics工具如何協(xié)助基礎(chǔ)設(shè)施規(guī)劃,它有哪些獨(dú)特功能?
在配置算力基礎(chǔ)架構(gòu)時(shí),應(yīng)如何考慮散熱管理以確保設(shè)備的可靠性和性能?
戴爾科技集團(tuán) AI 企業(yè)技術(shù)架構(gòu)師
全球 CTO 大使
戴爾科技集團(tuán)
企業(yè)級解決方案拓展經(jīng)理
NVIDIA 解決方案架構(gòu)師
戴爾科技集團(tuán)網(wǎng)絡(luò)產(chǎn)品經(jīng)理
戴爾科技集團(tuán)企業(yè)級解決方案
拓展經(jīng)理
8 路 GPU 服務(wù)器
支持 NVIDIA 高性能 AI GPU 加速卡
極致加速的 AI/ML/DL 能力
零信任安全模式
簡化、自動(dòng)化和集中化一對多管理
多矢量散熱技術(shù),動(dòng)態(tài)調(diào)節(jié)冷卻風(fēng)強(qiáng)度
人工智能革命已經(jīng)到來,數(shù)據(jù)中心是這場革命能否實(shí)現(xiàn)全球擴(kuò)展的試驗(yàn)場,目前數(shù)據(jù)中心是否為此做好準(zhǔn)備?
讓一起來聆聽用戶真實(shí)的心聲,并通過一段漫畫之旅,以及行業(yè)“智囊”們的深度解讀,全面了解面向AI 的數(shù)據(jù)中心的挑戰(zhàn),行業(yè)用戶的思考,以及戴爾科技如何通過強(qiáng)大的現(xiàn)代化可擴(kuò)展的數(shù)據(jù)中心解決方案來助力企業(yè)數(shù)字化轉(zhuǎn)型。