騰訊開源了基于Transformer架構(gòu)的Hunyuan-Large模型,擁有3890億參數(shù),優(yōu)于Meta的LLama3.1 - 405B模型。Hunyuan-Large采用MoE結(jié)構(gòu),高效訓練和推理,支持長達256K上下文。使用了KV緩存壓縮技術,減少內(nèi)存占用。訓練數(shù)據(jù)包括7萬億token,包括高質(zhì)量合成數(shù)據(jù)。模型在CommonsenseQA、PIQA、WinoGrande等測試中表現(xiàn)優(yōu)異。