Meta宣布了兩個(gè)新的24K H100 GPU集群,用于訓(xùn)練大模型Llama-3,預(yù)計(jì)4月末或5月中旬上線。集群使用RoCEv2網(wǎng)絡(luò)和基于Tectonic/Hammerspace的存儲(chǔ)解決方案,支持PyTorch。
大模型的訓(xùn)練需要大量的計(jì)算資源,企業(yè)的資金投入幾十億到上百億,因此在算力投入上要特別謹(jǐn)慎。大模型的訓(xùn)練是個(gè)典型的超算場(chǎng)景,采用超算的方式對(duì)企業(yè)來說更具性價(jià)比。租用算力方式比自建方式能讓企業(yè)風(fēng)險(xiǎn)更低、現(xiàn)金流更充裕。