OpenAI的o1模型是首個采用強(qiáng)化學(xué)習(xí)策略內(nèi)化思維鏈技術(shù)的LLM,在醫(yī)學(xué)領(lǐng)域的表現(xiàn)尚未明確。研究人員通過35個醫(yī)學(xué)數(shù)據(jù)集和2個新問答數(shù)據(jù)集,評估了o1在理解力、推理能力和多語言能力方面的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示o1在多數(shù)醫(yī)學(xué)任務(wù)上表現(xiàn)優(yōu)越,但在中文醫(yī)療代理任務(wù)中性能下降,且解碼時(shí)間較長。研究指出需要更精確的評估工具和改進(jìn)用戶指導(dǎo)策略,以實(shí)現(xiàn)AI醫(yī)生目標(biāo)。
OpenAI發(fā)布了新的大語言模型o1,專注于邏輯推理優(yōu)化,其推理能力在多個領(lǐng)域超越現(xiàn)有模型。o1模型通過思維鏈模式訓(xùn)練,提升了數(shù)學(xué)、編程、科學(xué)問題解決能力。在AIME和GPQA測試中表現(xiàn)優(yōu)異,超越人類專家水平。o1模型使用大規(guī)模強(qiáng)化學(xué)習(xí)算法,強(qiáng)調(diào)思維鏈和強(qiáng)化學(xué)習(xí)的重要性。OpenAI未向用戶展示原始思維鏈,但提供摘要。o1模型目前可供ChatGPT Plus訂閱用戶使用。