
清華教授鄧志東:大模型評測,能不能也建個L0-L5分級?

如何駛出大模型的幻象迷航?
兩周前,Reddit上一個爆料GPT-4.5的帖子火了,其中提到GPT-4.5將具備更強的多模態(tài)能力,文本、語音、圖片以及視頻都能一并處理,還具備復雜的推理以及跨模態(tài)理解能力。
消息一出,網(wǎng)友就熱鬧起來了,有好事者去Sam Altman的帖子下詢問GPT-4.5是否泄露,得到了一個輕飄飄的“nah”。
網(wǎng)友們又轉(zhuǎn)去問ChatGPT,結(jié)果還真問出了一個模型說自己是4.5版本的回答。不過很快OpenAI的員工回應,這是大模型產(chǎn)生了幻覺。隨后ChatGPT官方賬號發(fā)推,配了“腦”和“霧”的表情,大概是委婉地承認大模型幻覺問題。
大模型的幻象迷航
大模型幻覺,通俗地說就是一本正經(jīng)的胡說八道,看似很有道理,其實是在騙你。在過去這一年,大模型賽道風起云涌,無數(shù)國內(nèi)外科技巨頭、AI創(chuàng)業(yè)公司涌入,形成了“千模大戰(zhàn)”的盛景,與此同時,幻覺現(xiàn)象頻出,并且由于大模型的強大,生成的幻覺有時看上去非常合理,難以分辨,已經(jīng)成為大模型產(chǎn)品落地的攔路虎。
清華大學計算機系長聘教授、清華大學人工智能研究院視覺智能研究中心主任鄧志東在接受至頂科技采訪時表示,大模型幻覺,可以分為事實性幻覺和上下文不一致幻覺,前者是大模型生成的內(nèi)容不符合常識,甚至出現(xiàn)了捏造或者杜撰。后者則是大模型生成的回復或下文與用戶上文的指令不一致,也就是答非所問,驢唇不對馬嘴。
事實性幻覺是目前大模型幻覺研究的熱點,這一類幻覺對用戶的影響更大,還可能產(chǎn)生安全問題。例如,大模型在生成醫(yī)療建議時可能會捏造錯誤的藥品劑量,在具身智能中可能會帶來時空錯亂,這些都會給用戶帶來安全風險。但是,幻覺問題是客觀存在的,它的成因涉及到數(shù)據(jù)、模型結(jié)構(gòu)、預訓練、微調(diào)甚至推理各個部分。
從訓練數(shù)據(jù)的角度來看,由于互聯(lián)網(wǎng)上的信息是非均衡的,有的數(shù)據(jù)特別豐富,有的數(shù)據(jù)很少甚至缺失,也可能存在偏見或根本是錯誤信息,還有些數(shù)據(jù)的時效性不夠等。大模型通過互聯(lián)網(wǎng)采集的數(shù)據(jù)較容易出現(xiàn)這類缺陷。
從訓練本身來看,主流的大模型是自回歸生成式模型,沒有糾錯機制,也就是說前面發(fā)生的錯誤會傳遞到后面,導致錯上加錯,像滾雪球一樣。此外,如果問題超出了大模型的知識邊界,也可能由于大模型的對齊策略產(chǎn)生幻覺。
有什么方法能緩解這種幻覺?鄧志東從四個層面進行了解說。
一是提高訓練數(shù)據(jù)的質(zhì)量。在預訓練和微調(diào)階段通過數(shù)據(jù)清洗減少偏見,增加多元性和均衡性。例如,針對不同質(zhì)量的預訓練樣本集采用打分加權(quán),給高質(zhì)量數(shù)據(jù)集,比如程序代碼、專業(yè)論文和正式出版的書籍以更高的權(quán)重。而對于網(wǎng)頁上抓取的信息,通過大量清洗,篩除其錯誤和冗余數(shù)據(jù),這方面特別需要時間和資源的投入。
二是知識增強。利用外部工具檢索,跟常識性知識源進行對比。對于專用模型,則可增加更多的專業(yè)知識庫喂養(yǎng)。還可以借助于數(shù)字孿生,將數(shù)字孿生系統(tǒng)與大模型結(jié)合起來進行交叉驗證,幫助其消除幻覺。
三是增強一致性。包括邏輯一致性、知識一致性,通過一致性來判斷是否出現(xiàn)了幻覺,尤其是對上下文不一致的幻覺,有較好的效果。
最后是給大模型增加電子水印。未來互聯(lián)網(wǎng)上AI生成的內(nèi)容會越來越多,甚至超過人類產(chǎn)生的數(shù)據(jù)。清楚數(shù)據(jù)來源就顯得很重要,我們要知道它是由人類產(chǎn)生的,還是由AI大模型產(chǎn)生的,具體是哪個大模型,加水印是比較簡單的一個低成本鑒別方法。
另外,幻覺問題也與用戶如何跟模型交互相關(guān)。若巧妙地提問,采用一步一步拆解的策略,通過思維鏈方式將一個復雜問題分解為多個子問題,或者將一個大任務拆解成若干子任務,也能緩解幻覺問題。
揭秘大模型評測機制
如今,大模型之爭是整個科技界的焦點。市場上不乏聲稱自己產(chǎn)品超越GPT-3.5,甚至對標GPT-4的團隊,在各個榜單上刷臉。如何客觀評測大模型能力成為一個公眾和業(yè)界共同關(guān)注的議題。
最近,由工信部中國電子技術(shù)標準化研究院發(fā)起的國內(nèi)首個官方“大模型標準符合性評測”結(jié)果揭曉,有四家大模型通過了這一評測:360智腦、百度文心一言、騰訊混元、阿里云通義千問,這也標志著大模型的官方認證進程已經(jīng)開啟。
鄧志東表示,盡管業(yè)界已形成多個評測基準,如NLP領(lǐng)域的MMLU、BIG-Bench、C-Eval、GSM8K等,但大模型的跨領(lǐng)域特性使得每個細分領(lǐng)域都有其獨特的評測指標,例如在計算機視覺領(lǐng)域中的視覺目標檢測通常使用mAP進行評測,圖像與視頻分類任務則用準確率、召回率等指標進行性能評估。總體上,目前還沒有形成完整統(tǒng)一的跨領(lǐng)域多任務的評測體系,很多廠商因此鉆了空子,僅展示自己表現(xiàn)最好的方面。
大模型評測,需要構(gòu)建一個統(tǒng)一、客觀的第三方評測機構(gòu),不能由企業(yè)或者研究機構(gòu)自說自話。鄧志東認為,評測體系的建設應遵循定性與定量相結(jié)合、評測大模型與人類專家相結(jié)合的原則,既有客觀又有主觀。評測體系可以分為安全性、準確性、涌現(xiàn)能力和泛化能力四個維度,綜合評估大模型在各項任務中的表現(xiàn)。評測模式包括做題打分、模型間PK,還包括對模型各項單一能力的評估等。
他進一步提出了一個想法,類似于自動駕駛技術(shù)的L0-L5分級,大模型評測體系是否也可以采用這樣劃分?在這種框架下,L0至L2級可能代表的是大模型的基礎感知與生成能力,而L3級及以上則標志著模型具備更高級的理解認知與多模態(tài)生成能力,從初級認知到中級認知,L5級則是寬度接近甚至超越人類的高級認知能力。
從發(fā)展路徑上看,人工智能可分成弱人工智能-通用人工智能-強人工智能-超級人工智能這幾個演化階段。我們現(xiàn)在正處于通用人工智能的早期階段,當它的認知能力與完成復雜任務的寬度和人類差不多,就是強人工智能時代到了。
在這一大尺度發(fā)展路徑上,既有巨頭企業(yè)推動的基礎、基座通用大模型,也有針對垂域或特定應用場景的專用模型。畢竟大模型的價值在于實際應用和產(chǎn)品落地,這樣才能形成一個可持續(xù)發(fā)展的商業(yè)閉環(huán),因此更多初創(chuàng)企業(yè)應轉(zhuǎn)向垂域?qū)S媚P偷漠a(chǎn)業(yè)落地。在這一過程中,中國在商業(yè)模式構(gòu)建、應用落地速度以及應用場景多樣性上的優(yōu)勢可能也會體現(xiàn)出來,以此重建我們在AI大模型時代的新優(yōu)勢。
從單模態(tài)到多模態(tài),從簡單任務執(zhí)行到復雜的認知功能,比如智能涌現(xiàn),零樣本泛化等,通用人工智能這一年的發(fā)展超出了很多人的預期。在大模型不斷演化過程中,完善的評測體系和標準構(gòu)建尤為重要,這不僅僅是技術(shù)的競合,更意味著話語權(quán),和對未來行業(yè)趨勢的引領(lǐng)。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
