根據(jù)發(fā)布的o3測試數(shù)據(jù)顯示,美國AIME數(shù)學(xué)競賽中達(dá)到了96.7分,大幅度超過了o1預(yù)覽版的56.7和o1的83.3%,僅錯(cuò)了一道題相當(dāng)于一名頂級(jí)數(shù)學(xué)家的水平。
保持提示詞簡單直接:模型擅長理解和相應(yīng)簡單、清晰的指令,而不需要大量的指導(dǎo)。 當(dāng)時(shí)我對(duì)這一條的理解,覺得是為了讓o1模型更好的理解我的要求,同時(shí)可以加快模型的處理速度,因?yàn)槟P筒恍枰ㄙM(fèi)額外的時(shí)間去解析復(fù)雜的語句。
OpenAI發(fā)布了新的大語言模型o1,專注于邏輯推理優(yōu)化,其推理能力在多個(gè)領(lǐng)域超越現(xiàn)有模型。o1模型通過思維鏈模式訓(xùn)練,提升了數(shù)學(xué)、編程、科學(xué)問題解決能力。在AIME和GPQA測試中表現(xiàn)優(yōu)異,超越人類專家水平。o1模型使用大規(guī)模強(qiáng)化學(xué)習(xí)算法,強(qiáng)調(diào)思維鏈和強(qiáng)化學(xué)習(xí)的重要性。OpenAI未向用戶展示原始思維鏈,但提供摘要。o1模型目前可供ChatGPT Plus訂閱用戶使用。