螞蟻數(shù)科隱私增強(qiáng)型數(shù)據(jù)協(xié)作平臺(FAIR)在數(shù)據(jù)要素領(lǐng)域的應(yīng)用——螞蟻區(qū)塊鏈科技(上海)有限公司
案例基本內(nèi)容和執(zhí)行情況
螞蟻區(qū)塊鏈科技(上海)有限公司(以下簡稱螞蟻數(shù)科)圍繞數(shù)據(jù)要素為核心,融合隱私計算、區(qū)塊鏈、大數(shù)據(jù)、可驗證計算等技術(shù)推出隱私協(xié)作平臺(簡稱FAIR平臺),實現(xiàn)面向數(shù)據(jù)開放與數(shù)據(jù)基建的隱私增強(qiáng)型數(shù)據(jù)計算樞紐,并在監(jiān)管、營銷、風(fēng)控、民生等多個垂直領(lǐng)域的落地使用,推動了隱私安全、可信的數(shù)據(jù)共享及價值流轉(zhuǎn)。
平臺全面建設(shè)并實踐了隱私保護(hù)模式下的數(shù)據(jù)查詢,統(tǒng)計分析,聯(lián)合建模等能力,并融合軟硬結(jié)合技術(shù)實現(xiàn)特定算法的高性能硬件加速。支持快速對接現(xiàn)有數(shù)據(jù)源,提供資源友好的可配置輕量化底座,在多個場景實踐中展示出大規(guī)模數(shù)據(jù)下生產(chǎn)級可用的標(biāo)準(zhǔn)。例如在風(fēng)控的使用場景中,可以在保護(hù)數(shù)據(jù)隱私的前提下實現(xiàn)聯(lián)合建模,可在2分鐘完成10萬樣本100棵樹的XGB建模,產(chǎn)出模型精度相比單方建模精度提升30%以上,極大提升了風(fēng)控識別準(zhǔn)確率,降低了運營成本。
案例主要經(jīng)濟(jì)成效和社會成效分析
2021年12月,我國首次提出“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃,其中明確指出“(數(shù)字經(jīng)濟(jì))是以數(shù)據(jù)資源為關(guān)鍵要素...的新經(jīng)濟(jì)形態(tài)。”。同時我們也看到數(shù)據(jù)要素在輔助企業(yè)進(jìn)行智能化分析與決策等方面發(fā)揮著重要的作用,但在綜合運用多方數(shù)據(jù)產(chǎn)生更大乘法效應(yīng)的階段,卻面臨數(shù)據(jù)共享存在隱私安全風(fēng)險、數(shù)據(jù)持續(xù)流通存在可信挑戰(zhàn)的問題。螞蟻數(shù)科基于這一背景,綜合隱私計算、區(qū)塊鏈、大數(shù)據(jù)、可驗證計算等技術(shù)推出隱私協(xié)作平臺FAIR,實現(xiàn)面向數(shù)據(jù)開放與數(shù)據(jù)基建的隱私增強(qiáng)型數(shù)據(jù)計算樞紐,并賦能落地了監(jiān)管、營銷、風(fēng)控、民生等多個垂直領(lǐng)域。FAIR產(chǎn)品每年銷售收入數(shù)千萬元并實現(xiàn)了穩(wěn)步、高質(zhì)量增長,除此之外,作為一款面向企業(yè)的隱私增強(qiáng)型數(shù)據(jù)平臺產(chǎn)品,通過其密態(tài)分析與密態(tài)機(jī)器學(xué)習(xí)能力,在企業(yè)提升生產(chǎn)效率、降低運營成本、提升公共服務(wù)水平等方面帶來了諸多實際落地成果。后續(xù)將以幾個典型落地案例分別闡述這幾個方面的提升。
在信貸風(fēng)控場景的案例中,通過FAIR平臺的高精度密態(tài)機(jī)器學(xué)習(xí)能力,提升了客戶風(fēng)控能力,降低運營成本。客戶為某汽車金融廠商,通過機(jī)器學(xué)習(xí)模型進(jìn)行信貸授信、反欺詐等風(fēng)險防控。但其風(fēng)險標(biāo)簽一般來自人工認(rèn)定,往往數(shù)據(jù)量較少,且汽車廠商的用戶畫像特征數(shù)據(jù)維度偏少,訓(xùn)練后的機(jī)器學(xué)習(xí)模型精度不高,影響了風(fēng)控質(zhì)量?蛻衾肍AIR平臺的密態(tài)機(jī)器學(xué)習(xí)算法,聯(lián)合合作方提供的消費、交易、金融偏好等特征數(shù)據(jù),充分融合多參與方、多維度的數(shù)據(jù)形成聯(lián)合訓(xùn)練數(shù)據(jù),在隱私保護(hù)多方數(shù)據(jù)的前提下進(jìn)行聯(lián)合建模,產(chǎn)出的模型精度提升30%以上。FAIR密態(tài)機(jī)器學(xué)習(xí)能力具備常見特征工程、建模、推理與評估能力,同時針對風(fēng)控領(lǐng)域常見的樣本不均衡等問題進(jìn)行了針對性優(yōu)化,最終可以在2分鐘內(nèi)完成10萬級樣本百棵樹XGB模型的訓(xùn)練,1小時內(nèi)完成數(shù)億樣本的模型推理,提升了密態(tài)機(jī)器學(xué)習(xí)效率,有效幫助客戶改善了風(fēng)險防控能力,實現(xiàn)降本提效與高質(zhì)量發(fā)展。
在公共服務(wù)的案例中,通過FAIR平臺的多方數(shù)據(jù)密態(tài)分析能力,幫助相關(guān)部門實現(xiàn)了多方數(shù)據(jù)安全核驗,提高了公共服務(wù)水平。客戶需要綜合社保、稅務(wù)等政務(wù)數(shù)據(jù)對企業(yè)數(shù)據(jù)進(jìn)行交叉核驗,判斷其是否滿足特定政策。然而由于政務(wù)數(shù)據(jù)的敏感性,無法歸集到此部門進(jìn)行調(diào)用,往年只能通過人工方式進(jìn)行核驗。通過引入FAIR平臺的多方數(shù)據(jù)密態(tài)分析能力,在政務(wù)原始數(shù)據(jù)不出域的情況下實現(xiàn)聯(lián)合計算,核驗數(shù)據(jù)數(shù)千萬條,實現(xiàn)相關(guān)事項的智能核驗與秒批秒辦,高效服務(wù)企業(yè)超千家。
在醫(yī)學(xué)數(shù)據(jù)分析的案例中,通過FAIR平臺的密態(tài)數(shù)據(jù)計算能力,完成了跨地區(qū)多家醫(yī)院數(shù)據(jù)的聯(lián)合統(tǒng)計分析。特定疾病的發(fā)生率是支撐衛(wèi)生政策的重要信息,一般可基于人口學(xué)信息、實驗室檢查檢驗信息、住院信息等,經(jīng)特定規(guī)則運算分析得出。而綜合多家醫(yī)院的數(shù)據(jù)將極大提升準(zhǔn)確率,并可通過FAIR平臺的數(shù)據(jù)脫敏與密態(tài)數(shù)據(jù)統(tǒng)計分析能力,解決多方數(shù)據(jù)交互過程中的隱私安全問題。FAIR平臺提供SQL化的數(shù)據(jù)分析接入界面,客戶通過構(gòu)造SQL語句,就可以方便地完成多方數(shù)據(jù)的聯(lián)合查詢、統(tǒng)計分析、統(tǒng)計分布和相關(guān)性分析,進(jìn)而實現(xiàn)疾病發(fā)生率的分析,為當(dāng)?shù)毓残l(wèi)生政策制定提供決策支撐。
本文選自數(shù)據(jù)要素價值創(chuàng)新示范案例集(2023年度)