阿里巴巴旗下的 Qwen 團(tuán)隊(duì)推出了 QwQ-32B,這是一款擁有 320 億參數(shù)的推理模型,旨在通過強(qiáng)化學(xué)習(xí)提升復(fù)雜問題解決任務(wù)的表現(xiàn)。該模型在 Hugging Face 和 ModelScope 上以開源權(quán)重形式發(fā)布,適用于商業(yè)和研究用途,企業(yè)可以立即將其應(yīng)用于產(chǎn)品和應(yīng)用程序中。
DeepSeek作為人工智能領(lǐng)域的新興力量,其快速崛起引發(fā)了對AI創(chuàng)新未來、開源主導(dǎo)地位和傳統(tǒng)AI商業(yè)模式可持續(xù)性的討論。文章探討了DeepSeek的成功因素,包括其高效的模型設(shè)計(jì)、創(chuàng)新的訓(xùn)練方法以及開源策略,分析了其對AI行業(yè)格局的潛在影響,并探討了現(xiàn)有AI公司如何應(yīng)對這一不斷變化的局面。
香港大學(xué)和加州大學(xué)伯克利分校的一項(xiàng)新研究顯示,在沒有人工標(biāo)注數(shù)據(jù)的情況下,語言模型和視覺語言模型能夠更好地泛化。這一發(fā)現(xiàn)挑戰(zhàn)了大型語言模型社區(qū)的主流觀點(diǎn),即模型需要手工標(biāo)注的訓(xùn)練樣本。研究表明,過度依賴人工示例反而可能對模型的泛化能力產(chǎn)生負(fù)面影響。
AI方案并不是供應(yīng)鏈領(lǐng)域的新技術(shù),其中很多要素在某些場景下已經(jīng)被使用了幾十年。只是最近以來,更多新興案例開始快速涌現(xiàn)。
在AI界,對于如何進(jìn)一步推動AI的發(fā)展,存在兩種主要觀點(diǎn)。第一種觀點(diǎn)認(rèn)為,計(jì)算能力是AI進(jìn)步的唯一瓶頸。另一種觀點(diǎn)卻認(rèn)為,數(shù)據(jù)才是關(guān)鍵。