騰訊開(kāi)源了基于Transformer架構(gòu)的Hunyuan-Large模型,擁有3890億參數(shù),優(yōu)于Meta的LLama3.1 - 405B模型。Hunyuan-Large采用MoE結(jié)構(gòu),高效訓(xùn)練和推理,支持長(zhǎng)達(dá)256K上下文。使用了KV緩存壓縮技術(shù),減少內(nèi)存占用。訓(xùn)練數(shù)據(jù)包括7萬(wàn)億token,包括高質(zhì)量合成數(shù)據(jù)。模型在CommonsenseQA、PIQA、WinoGrande等測(cè)試中表現(xiàn)優(yōu)異。