清華教授鄧志東:大模型評(píng)測(cè),能不能也建個(gè)L0-L5分級(jí)?
如何駛出大模型的幻象迷航?
兩周前,Reddit上一個(gè)爆料GPT-4.5的帖子火了,其中提到GPT-4.5將具備更強(qiáng)的多模態(tài)能力,文本、語(yǔ)音、圖片以及視頻都能一并處理,還具備復(fù)雜的推理以及跨模態(tài)理解能力。
消息一出,網(wǎng)友就熱鬧起來了,有好事者去Sam Altman的帖子下詢問GPT-4.5是否泄露,得到了一個(gè)輕飄飄的“nah”。
網(wǎng)友們又轉(zhuǎn)去問ChatGPT,結(jié)果還真問出了一個(gè)模型說自己是4.5版本的回答。不過很快OpenAI的員工回應(yīng),這是大模型產(chǎn)生了幻覺。隨后ChatGPT官方賬號(hào)發(fā)推,配了“腦”和“霧”的表情,大概是委婉地承認(rèn)大模型幻覺問題。
大模型的幻象迷航
大模型幻覺,通俗地說就是一本正經(jīng)的胡說八道,看似很有道理,其實(shí)是在騙你。在過去這一年,大模型賽道風(fēng)起云涌,無數(shù)國(guó)內(nèi)外科技巨頭、AI創(chuàng)業(yè)公司涌入,形成了“千模大戰(zhàn)”的盛景,與此同時(shí),幻覺現(xiàn)象頻出,并且由于大模型的強(qiáng)大,生成的幻覺有時(shí)看上去非常合理,難以分辨,已經(jīng)成為大模型產(chǎn)品落地的攔路虎。
清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授、清華大學(xué)人工智能研究院視覺智能研究中心主任鄧志東在接受至頂科技采訪時(shí)表示,大模型幻覺,可以分為事實(shí)性幻覺和上下文不一致幻覺,前者是大模型生成的內(nèi)容不符合常識(shí),甚至出現(xiàn)了捏造或者杜撰。后者則是大模型生成的回復(fù)或下文與用戶上文的指令不一致,也就是答非所問,驢唇不對(duì)馬嘴。
事實(shí)性幻覺是目前大模型幻覺研究的熱點(diǎn),這一類幻覺對(duì)用戶的影響更大,還可能產(chǎn)生安全問題。例如,大模型在生成醫(yī)療建議時(shí)可能會(huì)捏造錯(cuò)誤的藥品劑量,在具身智能中可能會(huì)帶來時(shí)空錯(cuò)亂,這些都會(huì)給用戶帶來安全風(fēng)險(xiǎn)。但是,幻覺問題是客觀存在的,它的成因涉及到數(shù)據(jù)、模型結(jié)構(gòu)、預(yù)訓(xùn)練、微調(diào)甚至推理各個(gè)部分。
從訓(xùn)練數(shù)據(jù)的角度來看,由于互聯(lián)網(wǎng)上的信息是非均衡的,有的數(shù)據(jù)特別豐富,有的數(shù)據(jù)很少甚至缺失,也可能存在偏見或根本是錯(cuò)誤信息,還有些數(shù)據(jù)的時(shí)效性不夠等。大模型通過互聯(lián)網(wǎng)采集的數(shù)據(jù)較容易出現(xiàn)這類缺陷。
從訓(xùn)練本身來看,主流的大模型是自回歸生成式模型,沒有糾錯(cuò)機(jī)制,也就是說前面發(fā)生的錯(cuò)誤會(huì)傳遞到后面,導(dǎo)致錯(cuò)上加錯(cuò),像滾雪球一樣。此外,如果問題超出了大模型的知識(shí)邊界,也可能由于大模型的對(duì)齊策略產(chǎn)生幻覺。
有什么方法能緩解這種幻覺?鄧志東從四個(gè)層面進(jìn)行了解說。
一是提高訓(xùn)練數(shù)據(jù)的質(zhì)量。在預(yù)訓(xùn)練和微調(diào)階段通過數(shù)據(jù)清洗減少偏見,增加多元性和均衡性。例如,針對(duì)不同質(zhì)量的預(yù)訓(xùn)練樣本集采用打分加權(quán),給高質(zhì)量數(shù)據(jù)集,比如程序代碼、專業(yè)論文和正式出版的書籍以更高的權(quán)重。而對(duì)于網(wǎng)頁(yè)上抓取的信息,通過大量清洗,篩除其錯(cuò)誤和冗余數(shù)據(jù),這方面特別需要時(shí)間和資源的投入。
二是知識(shí)增強(qiáng)。利用外部工具檢索,跟常識(shí)性知識(shí)源進(jìn)行對(duì)比。對(duì)于專用模型,則可增加更多的專業(yè)知識(shí)庫(kù)喂養(yǎng)。還可以借助于數(shù)字孿生,將數(shù)字孿生系統(tǒng)與大模型結(jié)合起來進(jìn)行交叉驗(yàn)證,幫助其消除幻覺。
三是增強(qiáng)一致性。包括邏輯一致性、知識(shí)一致性,通過一致性來判斷是否出現(xiàn)了幻覺,尤其是對(duì)上下文不一致的幻覺,有較好的效果。
最后是給大模型增加電子水印。未來互聯(lián)網(wǎng)上AI生成的內(nèi)容會(huì)越來越多,甚至超過人類產(chǎn)生的數(shù)據(jù)。清楚數(shù)據(jù)來源就顯得很重要,我們要知道它是由人類產(chǎn)生的,還是由AI大模型產(chǎn)生的,具體是哪個(gè)大模型,加水印是比較簡(jiǎn)單的一個(gè)低成本鑒別方法。
另外,幻覺問題也與用戶如何跟模型交互相關(guān)。若巧妙地提問,采用一步一步拆解的策略,通過思維鏈方式將一個(gè)復(fù)雜問題分解為多個(gè)子問題,或者將一個(gè)大任務(wù)拆解成若干子任務(wù),也能緩解幻覺問題。
揭秘大模型評(píng)測(cè)機(jī)制
如今,大模型之爭(zhēng)是整個(gè)科技界的焦點(diǎn)。市場(chǎng)上不乏聲稱自己產(chǎn)品超越GPT-3.5,甚至對(duì)標(biāo)GPT-4的團(tuán)隊(duì),在各個(gè)榜單上刷臉。如何客觀評(píng)測(cè)大模型能力成為一個(gè)公眾和業(yè)界共同關(guān)注的議題。
最近,由工信部中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院發(fā)起的國(guó)內(nèi)首個(gè)官方“大模型標(biāo)準(zhǔn)符合性評(píng)測(cè)”結(jié)果揭曉,有四家大模型通過了這一評(píng)測(cè):360智腦、百度文心一言、騰訊混元、阿里云通義千問,這也標(biāo)志著大模型的官方認(rèn)證進(jìn)程已經(jīng)開啟。
鄧志東表示,盡管業(yè)界已形成多個(gè)評(píng)測(cè)基準(zhǔn),如NLP領(lǐng)域的MMLU、BIG-Bench、C-Eval、GSM8K等,但大模型的跨領(lǐng)域特性使得每個(gè)細(xì)分領(lǐng)域都有其獨(dú)特的評(píng)測(cè)指標(biāo),例如在計(jì)算機(jī)視覺領(lǐng)域中的視覺目標(biāo)檢測(cè)通常使用mAP進(jìn)行評(píng)測(cè),圖像與視頻分類任務(wù)則用準(zhǔn)確率、召回率等指標(biāo)進(jìn)行性能評(píng)估?傮w上,目前還沒有形成完整統(tǒng)一的跨領(lǐng)域多任務(wù)的評(píng)測(cè)體系,很多廠商因此鉆了空子,僅展示自己表現(xiàn)最好的方面。
大模型評(píng)測(cè),需要構(gòu)建一個(gè)統(tǒng)一、客觀的第三方評(píng)測(cè)機(jī)構(gòu),不能由企業(yè)或者研究機(jī)構(gòu)自說自話。鄧志東認(rèn)為,評(píng)測(cè)體系的建設(shè)應(yīng)遵循定性與定量相結(jié)合、評(píng)測(cè)大模型與人類專家相結(jié)合的原則,既有客觀又有主觀。評(píng)測(cè)體系可以分為安全性、準(zhǔn)確性、涌現(xiàn)能力和泛化能力四個(gè)維度,綜合評(píng)估大模型在各項(xiàng)任務(wù)中的表現(xiàn)。評(píng)測(cè)模式包括做題打分、模型間PK,還包括對(duì)模型各項(xiàng)單一能力的評(píng)估等。
他進(jìn)一步提出了一個(gè)想法,類似于自動(dòng)駕駛技術(shù)的L0-L5分級(jí),大模型評(píng)測(cè)體系是否也可以采用這樣劃分?在這種框架下,L0至L2級(jí)可能代表的是大模型的基礎(chǔ)感知與生成能力,而L3級(jí)及以上則標(biāo)志著模型具備更高級(jí)的理解認(rèn)知與多模態(tài)生成能力,從初級(jí)認(rèn)知到中級(jí)認(rèn)知,L5級(jí)則是寬度接近甚至超越人類的高級(jí)認(rèn)知能力。
從發(fā)展路徑上看,人工智能可分成弱人工智能-通用人工智能-強(qiáng)人工智能-超級(jí)人工智能這幾個(gè)演化階段。我們現(xiàn)在正處于通用人工智能的早期階段,當(dāng)它的認(rèn)知能力與完成復(fù)雜任務(wù)的寬度和人類差不多,就是強(qiáng)人工智能時(shí)代到了。
在這一大尺度發(fā)展路徑上,既有巨頭企業(yè)推動(dòng)的基礎(chǔ)、基座通用大模型,也有針對(duì)垂域或特定應(yīng)用場(chǎng)景的專用模型。畢竟大模型的價(jià)值在于實(shí)際應(yīng)用和產(chǎn)品落地,這樣才能形成一個(gè)可持續(xù)發(fā)展的商業(yè)閉環(huán),因此更多初創(chuàng)企業(yè)應(yīng)轉(zhuǎn)向垂域?qū)S媚P偷漠a(chǎn)業(yè)落地。在這一過程中,中國(guó)在商業(yè)模式構(gòu)建、應(yīng)用落地速度以及應(yīng)用場(chǎng)景多樣性上的優(yōu)勢(shì)可能也會(huì)體現(xiàn)出來,以此重建我們?cè)贏I大模型時(shí)代的新優(yōu)勢(shì)。
從單模態(tài)到多模態(tài),從簡(jiǎn)單任務(wù)執(zhí)行到復(fù)雜的認(rèn)知功能,比如智能涌現(xiàn),零樣本泛化等,通用人工智能這一年的發(fā)展超出了很多人的預(yù)期。在大模型不斷演化過程中,完善的評(píng)測(cè)體系和標(biāo)準(zhǔn)構(gòu)建尤為重要,這不僅僅是技術(shù)的競(jìng)合,更意味著話語(yǔ)權(quán),和對(duì)未來行業(yè)趨勢(shì)的引領(lǐng)。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼