上海AI實驗室的研究團隊創(chuàng)新性地設計了元動作思考范式來引導模型的搜索空間,使模型更高效地習得和產(chǎn)生多樣化的推理策略組合;基于通專融合的方式進行數(shù)據(jù)合成,并通過構(gòu)建大規(guī)模沙盒環(huán)境獲取反饋,在不依賴o1這類已有強推理模型的情況下,實現(xiàn)高質(zhì)量思維鏈的獨立構(gòu)建,并大幅提升模型的復雜任務處理性能。
這個模型的最大特色便是深度思維鏈推理,尤其是在數(shù)學、代碼以及各種復雜推理任務上,可以生成數(shù)萬字的推理流程,讓用戶深度了解模型生成內(nèi)容的全過程。