
站在搜索肩膀上的夸克大模型,讓AI“幻覺(jué)”無(wú)處可逃

怎么通俗理解AI幻覺(jué)呢,就像“秦始皇騎摩托車”,說(shuō)白了是驢唇不對(duì)馬嘴的感覺(jué)。
AI幻覺(jué)指的是人工智能系統(tǒng)在處理信息時(shí)產(chǎn)生的錯(cuò)誤或歪曲現(xiàn)象,尤其是在解釋和生成數(shù)據(jù)時(shí)出現(xiàn)的非現(xiàn)實(shí)性結(jié)果。
怎么通俗理解AI幻覺(jué)呢,就像“秦始皇騎摩托車”,說(shuō)白了是驢唇不對(duì)馬嘴的感覺(jué)。
在AI領(lǐng)域,雖然AI模型的訓(xùn)練和優(yōu)化在不斷增強(qiáng),但是基于數(shù)據(jù)的不斷增加,算法的局限性以及復(fù)雜系統(tǒng)的不可預(yù)測(cè)等因素,勢(shì)必出現(xiàn)訓(xùn)練數(shù)據(jù)的不足或偏差,從而產(chǎn)生AI幻覺(jué)。
比如,文本生成模型編造出的虛假新聞或文章,語(yǔ)音識(shí)別系統(tǒng)誤解指令或生成不合邏輯的回應(yīng),如果這些錯(cuò)誤出現(xiàn)在自動(dòng)駕駛、醫(yī)療診斷上,造成的就不僅僅是經(jīng)濟(jì)損失,有可能對(duì)人的生命造成威脅。
近期,在CMMLU權(quán)威大模型性能評(píng)測(cè)中,阿里巴巴智能信息事業(yè)群發(fā)布全棧自研、千億級(jí)參數(shù)的夸克大模型成績(jī)位列榜首。評(píng)測(cè)顯示,夸克大模型整體能力已經(jīng)超過(guò)GPT-3.5,在寫作、考試等部分場(chǎng)景中優(yōu)于GPT-4。可以說(shuō)憑借過(guò)硬的研發(fā)能力及數(shù)據(jù)、行業(yè)、平臺(tái)等優(yōu)勢(shì)成為新晉“學(xué)霸”。
(夸克技術(shù)負(fù)責(zé)人蔣冠軍)
那么如何解決大模型幻覺(jué)問(wèn)題,夸克技術(shù)負(fù)責(zé)人蔣冠軍給出自己的思考和實(shí)踐。
夸克技術(shù)負(fù)責(zé)人蔣冠軍表示要解決大模型幻覺(jué)問(wèn)題,一方面要先解決知識(shí)正確性,另一方面是算法的優(yōu)化。
算法優(yōu)化方面,憑借語(yǔ)義理解、邏輯推理、內(nèi)容生成等技術(shù)優(yōu)勢(shì),夸克大模型在CMMLU權(quán)威榜單的最新評(píng)測(cè)結(jié)果中,取得排名第一的優(yōu)異成績(jī)。在國(guó)內(nèi)專業(yè)考試測(cè)試中,夸克大模型高考成績(jī)接近滿分,并以486分的高水平通過(guò)臨床執(zhí)業(yè)醫(yī)師資格考試,是名副其實(shí)的“學(xué)霸”。
知識(shí)能力方面,夸克大模型具備了對(duì)不良、虛假信息識(shí)別、回答和指引的出色能力?淇舜竽P蛽碛袕V泛的知識(shí)覆蓋、上下文理解、創(chuàng)造性表達(dá)、信息搜集和整合、多語(yǔ)言支持等,同時(shí)具備外接專業(yè)知識(shí)增強(qiáng)、檢索增強(qiáng)能力,進(jìn)一步提升跨領(lǐng)域、時(shí)效性的知識(shí)和語(yǔ)言理解能力。此外,夸克大模型還具有撰寫各類文本的強(qiáng)大文學(xué)創(chuàng)作能力,以及準(zhǔn)確、合理、連貫的對(duì)話回復(fù)能力。
大模型站在搜索引擎上,讓AI“幻覺(jué)”無(wú)處可逃
清華大學(xué)新聞學(xué)院教授、博士生導(dǎo)師沈陽(yáng)認(rèn)為人工智能的基本原理是概率模型,概率模型一定會(huì)犯錯(cuò)誤。
如大模型無(wú)法解決的“幻覺(jué)”問(wèn)題,就無(wú)法保證結(jié)果的準(zhǔn)確性和事實(shí)性。比如你問(wèn)他美國(guó)電影的007的男主角和女主角是誰(shuí)?AI說(shuō),男主角是小帥,女主角是小美。這個(gè)信息怎么來(lái)的?可能是大量短視頻里的信息,誤導(dǎo)了大模型。
如何確保收集更全面、多樣化的數(shù)據(jù),從而減少大模型的錯(cuò)誤率和知識(shí)的正確性,一個(gè)重要的措施就是要跟搜索引擎進(jìn)行連接。
搜索引擎跟大模型的結(jié)合是天然之配。包括大模型中最重要的玩家像谷歌、百度,最核心的技術(shù)就是搜索。
沈陽(yáng)教授談到,未來(lái)將會(huì)沒(méi)有搜索引擎的概念,只會(huì)有大模型的概念。搜索引擎和大模型之間的邏輯關(guān)系如下:
搜索引擎的數(shù)據(jù)量很大,天然具有各種網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)。
搜索引擎在內(nèi)容安全上,已經(jīng)經(jīng)歷了長(zhǎng)時(shí)間的考驗(yàn)。
搜索引擎中用戶提供了大量的查詢需求,這些查詢需求和用戶的點(diǎn)擊、返回的結(jié)果,本身就是一種交互,對(duì)這些交互做一些改造。那么結(jié)合大模型的話,可以把搜到的結(jié)果做聚合和整合,就可以實(shí)現(xiàn)信息理解和交互。
蔣冠軍談到夸克結(jié)合搜索,對(duì)于大模型錯(cuò)誤率的降低有很大的幫助。
對(duì)于夸克而言,基于搜索技術(shù)能力的積累,在解決幻覺(jué)問(wèn)題時(shí),也就是模型輸出錯(cuò)誤問(wèn)題時(shí),還是相對(duì)有優(yōu)勢(shì)的。
“我們現(xiàn)在的夸克大模型在科普問(wèn)答,我們純模型的幻覺(jué)率是25%。這個(gè)值在國(guó)內(nèi)相對(duì)是比較領(lǐng)先的,很多大模型公司宣傳時(shí),從來(lái)不會(huì)講它的錯(cuò)誤率,因?yàn)殄e(cuò)誤率比較高。” 蔣冠軍談到。
夸克基于搜索知識(shí)體系的整體積累,結(jié)合知識(shí)圖譜、搜索內(nèi)容和在醫(yī)療、教育、法律行業(yè)上的數(shù)據(jù)積累,通過(guò)知識(shí)外化的方式,能夠把通用知識(shí)的錯(cuò)誤率降到15%以下。像醫(yī)療、法律等行業(yè),現(xiàn)在的搜索結(jié)果都是醫(yī)生三審三校的內(nèi)容,內(nèi)容質(zhì)量很高,夸克也做了很多知識(shí)圖譜和知識(shí)數(shù)據(jù)的積累和建設(shè)。像優(yōu)質(zhì)內(nèi)容行業(yè)的知識(shí)錯(cuò)誤率,能降到5%以下。5%基本上達(dá)到較高的可用性。
同時(shí)夸克本身就具備強(qiáng)大的搜索引擎,搜索引擎本身就是海量的網(wǎng)頁(yè)數(shù)據(jù),夸克的數(shù)據(jù)庫(kù)里就有千億級(jí)網(wǎng)頁(yè)。這意味著需要有一個(gè)非常好的離線系統(tǒng)或工程系統(tǒng),去處理大規(guī)模的網(wǎng)頁(yè)數(shù)據(jù),去做對(duì)齊、去重、分析等工作。這個(gè)能力的話,跟大模型所需要的能力是非常匹配的,因?yàn)榇竽P途褪且笏懔Γ瑐鹘y(tǒng)搜索引擎就具備大算力。
這樣實(shí)現(xiàn)了夸克大模型能力在數(shù)據(jù)、行業(yè)、知識(shí)正確性、平臺(tái)等四方面優(yōu)勢(shì)。首先,夸克大模型擁有最全面的中文數(shù)據(jù)庫(kù),能更好地理解、評(píng)估、提煉中文知識(shí)體系;第二,夸克自建及擁有各類題庫(kù)、知識(shí)點(diǎn)、醫(yī)療知識(shí)圖譜、書籍及出版物等資料,沉淀了非常豐富的數(shù)據(jù)及用戶場(chǎng)景;第三,在通用知識(shí)、寫作增強(qiáng)等方面,夸克建立了從內(nèi)容、搜索再到推理的一套可辨別知識(shí)真?zhèn)蔚募夹g(shù)體系。第四,夸克組建了數(shù)百人的研發(fā)團(tuán)隊(duì),在搜索、教育、醫(yī)療等垂直領(lǐng)域中進(jìn)行大模型的預(yù)訓(xùn)練與精調(diào)。
蔣冠軍認(rèn)為,在解決幻覺(jué)問(wèn)題的過(guò)程中,垂直模型比通用模型會(huì)優(yōu)先發(fā)展。這是因?yàn)橥ㄓ媚P陀龅降膯?wèn)題非常多,包括幻覺(jué)問(wèn)題、安全問(wèn)題、準(zhǔn)備性問(wèn)題。但是進(jìn)入到垂直模型,垂直到B端,進(jìn)入到具體的公司,就會(huì)有一個(gè)垂直業(yè)務(wù)的具體行業(yè)需求,那么很多問(wèn)題可以解決。比如醫(yī)療行業(yè)中的大模型應(yīng)用,既可以通過(guò)醫(yī)學(xué)相關(guān)的知識(shí)推理和醫(yī)學(xué)知識(shí)的具體信息來(lái)得到相對(duì)準(zhǔn)確的答案,也可以拒絕回答而讓醫(yī)生來(lái)給出更合理的建議。
大模型應(yīng)用夸克搜索,健康內(nèi)容更精準(zhǔn)
12月25日,夸克App推出健康大模型應(yīng)用“夸克健康助手”,融合醫(yī)學(xué)知識(shí)圖譜和生成式對(duì)話能力,用戶可以在部分搜索結(jié)果中,看到由夸克健康助手回答的AIGC內(nèi)容。與傳統(tǒng)搜索結(jié)果相比,提供了更加全面和準(zhǔn)確的健康信息。
針對(duì)AIGC等全新搜索內(nèi)容形態(tài),夸克成立了夸克健康專家團(tuán),與全國(guó)頂級(jí)公立三甲醫(yī)院的專家共建大模型內(nèi)容生態(tài),確保內(nèi)容層面的專業(yè)性、正確性和科學(xué)性。此外,夸克還會(huì)招募健康大模型精調(diào)師,持續(xù)地結(jié)合用戶需求和熱門病癥,提供最新的健康知識(shí)。
基于夸克大模型和全網(wǎng)權(quán)威觀點(diǎn)匯總,用戶在夸克App中搜索健康內(nèi)容的正確率超過(guò)行業(yè)平均水平。為了給用戶提供更加精準(zhǔn)的專業(yè)知識(shí),經(jīng)過(guò)精調(diào)和知識(shí)增強(qiáng)的夸克大模型,以486分的高分通過(guò)臨床執(zhí)業(yè)醫(yī)師資格考試。同時(shí)在健康內(nèi)容上的幻覺(jué)率已經(jīng)降低至5%以內(nèi),成為國(guó)產(chǎn)大模型中的“學(xué)霸”。
實(shí)現(xiàn)了用戶在夸克中搜索健康信息的正確率超過(guò)行業(yè)平均水平,多樣化的信息呈現(xiàn)方式和優(yōu)質(zhì)搜索內(nèi)容將更加便捷和實(shí)用。
面向未來(lái),夸克大模型應(yīng)用于搜索、智能工具和資產(chǎn)管理助手等場(chǎng)景,一系列AI原生應(yīng)用將為年輕人工作、學(xué)習(xí)、生活提供更全面的服務(wù)。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
