OpenAI的o1模型是首個(gè)采用強(qiáng)化學(xué)習(xí)策略內(nèi)化思維鏈技術(shù)的LLM,在醫(yī)學(xué)領(lǐng)域的表現(xiàn)尚未明確。研究人員通過(guò)35個(gè)醫(yī)學(xué)數(shù)據(jù)集和2個(gè)新問(wèn)答數(shù)據(jù)集,評(píng)估了o1在理解力、推理能力和多語(yǔ)言能力方面的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示o1在多數(shù)醫(yī)學(xué)任務(wù)上表現(xiàn)優(yōu)越,但在中文醫(yī)療代理任務(wù)中性能下降,且解碼時(shí)間較長(zhǎng)。研究指出需要更精確的評(píng)估工具和改進(jìn)用戶指導(dǎo)策略,以實(shí)現(xiàn)AI醫(yī)生目標(biāo)。