上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)創(chuàng)新性地設(shè)計(jì)了元?jiǎng)幼魉伎挤妒絹硪龑?dǎo)模型的搜索空間,使模型更高效地習(xí)得和產(chǎn)生多樣化的推理策略組合;基于通專融合的方式進(jìn)行數(shù)據(jù)合成,并通過構(gòu)建大規(guī)模沙盒環(huán)境獲取反饋,在不依賴o1這類已有強(qiáng)推理模型的情況下,實(shí)現(xiàn)高質(zhì)量思維鏈的獨(dú)立構(gòu)建,并大幅提升模型的復(fù)雜任務(wù)處理性能。
OpenAI發(fā)布了新的AI模型OpenAI o1,它在復(fù)雜推理任務(wù)上取得顯著進(jìn)展,重置了命名序列。o1模型通過Self-play RL學(xué)習(xí),具備了慢思考的特質(zhì),能夠進(jìn)行深度思考和推理。在AIME 2024數(shù)學(xué)競(jìng)賽和科學(xué)問題GPQA Diamond上,o1的表現(xiàn)超過了人類專家。o1模型已向ChatGPT Plus和Team用戶開放,提供o1預(yù)覽版和o1 mini兩種版本,API價(jià)格不等。