
為33家企業(yè)測過大模型的“方升”,是一個怎樣的評測體系?

如何識別大模型的能力強弱?
2023年,是大模型乘風直上的一年,也是諸侯混戰(zhàn)的一年。
在百模大戰(zhàn)中,亟需一套大模型評估體系、評測標準,來評估各類大模型的能力,尤其是在行業(yè)大模型正式進入到產(chǎn)業(yè)中,批量化落地之前,如何區(qū)分大模型的實戰(zhàn)能力,就成了大家關注的問題。
中國信通院是從2022年開始開展大模型評測體系構建工作的,經(jīng)過兩年三次迭代,就在本周,大模型評測體系升級到了3.0版本,全新的“方升”大模型基準測試體系在12月24日正式對外發(fā)布。
兩年三迭代,“方升”問世
2022年,中國信通院提出大模型評測體系1.0。
在大模型還沒有火起來時,中國信通院聚焦于模型開發(fā)、模型能力兩個維度,就研發(fā)過程中的工程技術能力和驗證性評估的模型能力,展開了大模型評測體系構建工作。
到2023年,大模型作為人工智能技術發(fā)展主流方向成為共識時,中國信通院將大模型評測體系升級到了2.0版本,圍繞模型開發(fā)、模型能力、模型運營、模型應用和模型可信五個維度,重點針對大模型落地中的工程化問題進一步開展了標準和評測工作。
據(jù)悉,2023年,中國信通院累計服務了33家企業(yè),對60多項大模型產(chǎn)品和服務進行了測試,服務企業(yè)有華為、百度、騰訊、科大訊飛、360、昆侖萬維、H3C、海爾等。
在這一年的測試過程中,中國信通院也發(fā)現(xiàn)了當時評測體系的一些不足,同時也從產(chǎn)業(yè)中獲得了更多的需求反饋。例如,有廠商希望在應對具體行業(yè)或場景中的問題時,大模型可以給一個明確的反饋。
基于此,在進一步對模型能力量化評估基準體系不足之處補充后,中國信通院再次將大模型評測體系升級到了3.0版本。
據(jù)悉,中國信通院大模型評測體系3.0,也就是“方升”評測體系整體構建思路包括三個方面:
第一,圍繞產(chǎn)業(yè)需求,解決應用效果評估的問題,通過測試驅動模型能力高效評估,例如解決大模型刷榜問題。
第二,圍繞能力補齊,補齊量化評估結果、多維度細粒度的大模型評估、海量動態(tài)更新測試數(shù)據(jù)集。
第三,圍繞方法落地,大模型基準測試問題挑戰(zhàn)、先進的人工智能測試方法的問題,并以及面向重點領域提前布局。
為此,中國信通院圍繞測試規(guī)范、方法創(chuàng)新、應用導向、高效測試幾個方面,構建了方升大模型基準測試體系。
方升大模型基準測試體系解析
中國信通院最新發(fā)布的“方升”大模型基準測試體系,涵蓋4個維度、15個能力域,40+能力項。
針對指標體系,“方升”大模型基準測試體系主要從基準測試能力、基準測試數(shù)據(jù)、基準測試方法、基準測試平臺四個方面進行構建。
例如,針對大模型基準測試能力,這一基準測試體系主要從通用能力、行業(yè)能力、應用能力、安全能力四個維度,來評估大模型在不同場景中的能力表現(xiàn)。
為了解決評測數(shù)據(jù)集難管理、大模型測試“刷榜”、測試數(shù)據(jù)質量難評估、測試效率低等問題,“方升”測試體系還自創(chuàng)提出了自適應動態(tài)測試方法,保證大模型基準測試全面、客觀、高效。
具體而言,中國信通院有大量未開源的數(shù)據(jù)集,在測試過程中,通過固定的抽取規(guī)則抽取相關數(shù)據(jù)集,保證每個大模型測試過程中抽取不同題目的比例相同,又能夠保證是一個“閉卷考試”。從而真正實現(xiàn)對大模型治理水平的一個公平、公正的測試。
針對這其中難度較大的測試數(shù)據(jù)集的構建,“方升”測試體系目前測試數(shù)據(jù)集涵蓋領域包括金融、醫(yī)療、教育、法律、政府、電信、軟件工程等多個領域,整體測試數(shù)據(jù)集超過100個,測試題目數(shù)超過100萬道。
針對專業(yè)領域的數(shù)據(jù)集,中國信通院是與行業(yè)中具有相關儲備的企業(yè)與高校共同合作構建的。
例如,中國信通院與北京市政府服務管理局共建了國內政務行業(yè)評測數(shù)據(jù)集,與東方財富共建了金融行業(yè)評測數(shù)據(jù)集,與甲骨易共建了幻覺評測數(shù)據(jù)集,與天津大學共建了道德倫理、角色扮演、AGENT的評測數(shù)據(jù)集。
目前,“方升”測試體系在實驗室內部測試,支持兩類測試:
第一類,選擇性測試,即選擇某個特定的評測維度,抽取相關數(shù)據(jù)集評測大模型能力,最終數(shù)據(jù)兩個大模型的雷達圖。
第二類,全面性測試,即從整體題庫中按比例和規(guī)則抽取一定量的數(shù)據(jù)集,全面評測摸個大模型的能力,最終根據(jù)測試結果確定大模型后續(xù)優(yōu)化方向。
“方升”測試體系還支持針對業(yè)務場景的測試。
例如,2023年7月由北京市政務服務中心牽頭,委托中國信通院作為第三方測評機構,依托“方升”體系測評多家技術廠商政務大模型綜合服務能力,驗證在真實政務問答業(yè)務場景中大模型的應用效果。
2023年是大模型進入全球視野的一年,但更多行業(yè)專家預測,2024年才是大模型規(guī);虡I(yè)落地的一年,在此之前,如何構建好一套大模型評測體系就成了一個亟需解決的問題。
中國信通院在這一年年底發(fā)布的方升大模型基準測試體系,就顯得來得恰逢其時。
本文章選自《數(shù)字化轉型方略》雜志,閱讀更多雜志內容,請掃描下方二維碼
