上海AI實驗室的研究團隊創(chuàng)新性地設(shè)計了元動作思考范式來引導(dǎo)模型的搜索空間,使模型更高效地習(xí)得和產(chǎn)生多樣化的推理策略組合;基于通專融合的方式進(jìn)行數(shù)據(jù)合成,并通過構(gòu)建大規(guī)模沙盒環(huán)境獲取反饋,在不依賴o1這類已有強推理模型的情況下,實現(xiàn)高質(zhì)量思維鏈的獨立構(gòu)建,并大幅提升模型的復(fù)雜任務(wù)處理性能。
Llama3.1 版本模型提供了更好的推理能力、更大的 128K token 上下文窗口,并改進(jìn)了對8種語言的支持。