中國(guó)人工智能實(shí)驗(yàn)室深度思考發(fā)布了其所謂的推理模型DeepSeek-R1的開放版本,聲稱在某些人工智能基準(zhǔn)測(cè)試中表現(xiàn)與OpenAI的o1相當(dāng)。R1在AI開發(fā)平臺(tái)Hugging Face上以MIT許可證提供,意味著可以在商業(yè)上無(wú)限制使用。深度思考表示,R1在AIME、MATH-500和SWE-bench Verified基準(zhǔn)測(cè)試中超越了o1。AIME使用其他模型來(lái)評(píng)估模型的性能,而MATH-500是一個(gè)包含文字問(wèn)題的集合。SWE-bench Verified則專注于編程任務(wù)。