自動駕駛的「數(shù)據(jù)引擎」,該如何“降本”、“增效”和“精準(zhǔn)化”?
未來針對真正落地之前的特定場景的增效百分比,合成數(shù)據(jù)能夠達(dá)到80%,甚至更高。
80%的數(shù)據(jù)+20%的模型=更好的AI。
這是人工智能領(lǐng)域知名學(xué)者吳恩達(dá)在他45歲生日當(dāng)天提出的人工智能領(lǐng)域的“二八定律”,他說“讓我們的工作從以模型為中心轉(zhuǎn)向以數(shù)據(jù)為中心,將對很多(人工智能)團(tuán)隊(duì)大有裨益。”
在過往十幾年人工智能產(chǎn)業(yè)高速發(fā)展過程中,算法模型研發(fā)的重要性被空前放大,互聯(lián)網(wǎng)大廠更是動輒為算法工程師開出百萬年薪,這讓本就默默無聞的數(shù)據(jù)一度沒什么光環(huán)。
實(shí)際上,時下主流AI算法要以數(shù)據(jù)驅(qū)動仍是一個不爭的事實(shí),在人工智能產(chǎn)業(yè)中,數(shù)據(jù)收集、數(shù)據(jù)處理仍是關(guān)鍵的前置環(huán)節(jié),而支撐這些前置環(huán)節(jié)的是一個龐大的數(shù)據(jù)服務(wù)產(chǎn)業(yè)。
澳鵬就是這樣一家數(shù)據(jù)服務(wù)供應(yīng)商,澳鵬Appen(中國)產(chǎn)品及研發(fā)總監(jiān)錢程告訴至頂網(wǎng),“隨著近年來人工智能工業(yè)化和工程化成為趨勢,企業(yè)對定制化、復(fù)雜性的數(shù)據(jù)需求度越來越高,而對于一些商業(yè)化落地比較好的公司,他們需要的數(shù)據(jù)量也在成倍增長。”
數(shù)據(jù)成本的增加,也就成了企業(yè)加載人工智能引擎時無可回避的一個問題。
高質(zhì)量數(shù)據(jù)為什么是自動駕駛的關(guān)鍵
自動駕駛是當(dāng)下商業(yè)化落地比較好的一個應(yīng)用場景,也是澳鵬一個核心業(yè)務(wù)場景,自動駕駛涉及的數(shù)據(jù)服務(wù)按場景劃分又可以劃分為兩大類——艙內(nèi)數(shù)據(jù)、艙外數(shù)據(jù)。
澳鵬Appen(中國)高級客戶經(jīng)理張先雄告訴至頂網(wǎng),“2016年-2020年,我們拿到的絕大部分?jǐn)?shù)據(jù)服務(wù)訂單是以車內(nèi)場景為主,車內(nèi)場景主要涉及的是人車交互(TTS合成、語音識別)和車內(nèi)人的輿情監(jiān)控(人的情緒識別、是否安全駕駛的識別),相比起車外場景,車內(nèi)場景相對簡單,能到千萬級別的項(xiàng)目很少。”
不過,隨著自動駕駛進(jìn)程提速,尤其是在自動駕駛道路測試牌照陸續(xù)發(fā)放后,自動駕駛廠商紛紛開始向L3及以上的自動駕駛技術(shù)沖刺,這時,自動駕駛廠商對艙外數(shù)據(jù)服務(wù)的需求也與日俱增。這樣的需求變化既有數(shù)據(jù)需求量的增長,也有更復(fù)雜的數(shù)據(jù)類型的變化。
從數(shù)據(jù)量來看,艙內(nèi)數(shù)據(jù)需求量基本在億幀以下,而艙外數(shù)據(jù)需求量都在億幀以上,甚至?xí)_(dá)到幾十億幀的規(guī)模;從數(shù)據(jù)類型來看,艙外的數(shù)據(jù)類型既有攝像頭拍攝的圖像數(shù)據(jù),也有激光雷達(dá)3D點(diǎn)云數(shù)據(jù),數(shù)據(jù)標(biāo)注起來更為復(fù)雜。
以艙外為主的數(shù)據(jù)標(biāo)注服務(wù)的不斷涌現(xiàn),也使得數(shù)據(jù)成本急劇上升。
身在潮流中的澳鵬自然也感受到了這樣的變化,據(jù)張先雄透露,“從2020年左右,L3及以上的自動駕駛研發(fā),越來越受市場關(guān)注,我們能看到一些重投入客戶一年會拿出幾個億的預(yù)算來做數(shù)據(jù)標(biāo)注,少一點(diǎn)的也在千萬級別。”
僅僅是每年在數(shù)據(jù)標(biāo)注上的投入,就已經(jīng)相當(dāng)于不少中小型企業(yè)的年?duì)I收,這也使得提起人工智能時,不少中小體量企業(yè)會望而卻步。
對于企業(yè)而言,如何低成本獲取高質(zhì)量數(shù)據(jù)就成了他們在這個時代的剛需。
數(shù)據(jù)如何降本、增效、精準(zhǔn)化
作為一家成立于1996年的數(shù)據(jù)服務(wù)公司,澳鵬在數(shù)據(jù)服務(wù)領(lǐng)域已經(jīng)深耕多年,根據(jù)澳鵬最新發(fā)布的《人工智能和機(jī)器學(xué)習(xí)全景報告》調(diào)查數(shù)據(jù)顯示,42%的技術(shù)專家表示, AI生命周期中的數(shù)據(jù)獲取階段很有挑戰(zhàn)性。這樣的挑戰(zhàn)同樣存在于自動駕駛領(lǐng)域。
錢程告訴至頂網(wǎng),AI在自動駕駛項(xiàng)目中部署產(chǎn)生的成本主要來自兩方面,一方面是硬件成本,另一方面則是人力成本。人力成本主要集中在數(shù)據(jù)服務(wù)上,這其中既有平臺建設(shè)上的人力投入,也有數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注上的人力投入。
以特斯拉為例,特斯拉現(xiàn)在已經(jīng)建立起千人規(guī)模的數(shù)據(jù)標(biāo)注團(tuán)隊(duì),搭建了一套用于數(shù)據(jù)標(biāo)注的軟件平臺,針對數(shù)據(jù)標(biāo)注的軟件平臺,特斯拉還有一個完整的開發(fā)維護(hù)團(tuán)隊(duì)。
實(shí)際上,除了自建數(shù)據(jù)服務(wù)團(tuán)隊(duì)外,不少車廠也在與數(shù)據(jù)服務(wù)商合作,以此降低人力成本。張先雄告訴至頂網(wǎng),“國內(nèi)不少整車廠、汽車解決方案廠商,以及造車新勢力都在使用我們的數(shù)據(jù)服務(wù),自動駕駛領(lǐng)域的營收也已經(jīng)占到我們公司整體營收的較大比重。”
以澳鵬與某自動駕駛廠商艙外合作項(xiàng)目為例,張先雄透露,“項(xiàng)目推進(jìn)過程中受到數(shù)據(jù)采集流轉(zhuǎn)集中度影響其實(shí)存在波峰波谷,在項(xiàng)目推進(jìn)波峰期,有時一次會傳回幾億幀,甚至幾十億幀的圖像數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行清洗、標(biāo)注的團(tuán)隊(duì)投入就要達(dá)到5000-10000人,即便是在波谷期也要一兩千人團(tuán)隊(duì)做服務(wù)支持。”
目前,澳鵬在全球擁有超過100萬名技能嫻熟的眾包資源,支持235+種語言和方言,遍布170+個國家和70000個地區(qū),在中國擁有超過千余名全職員工、1000+BPO資源、數(shù)萬名高質(zhì)量本土眾包人員,擁有專業(yè)的評估和項(xiàng)目團(tuán)隊(duì)全程跟進(jìn)試標(biāo)、采集、標(biāo)注、質(zhì)檢、驗(yàn)收和交付流程。
除了通過與數(shù)據(jù)服務(wù)商合作以降低人工智能落地成本外,在澳鵬內(nèi)部,也在通過搭建搭建數(shù)據(jù)標(biāo)注平臺來提效降本。
2019年,在人工智能高速發(fā)展這一年,澳鵬搭建了人工智能數(shù)據(jù)標(biāo)注平臺,錢程告訴至頂網(wǎng),“平臺帶來的效率提升是最直接的,也是最容易被客戶忽略的。”
實(shí)際上,平臺開發(fā)最難的不是前期幾百萬、幾千萬成本的投入,而是搭建團(tuán)隊(duì)有多少項(xiàng)目經(jīng)驗(yàn),團(tuán)隊(duì)見到過多少數(shù)據(jù)類型、看到過多少不同細(xì)分場景的數(shù)據(jù)邏輯和規(guī)則,“只有經(jīng)歷過多個項(xiàng)目、不同場景實(shí)戰(zhàn)經(jīng)驗(yàn),才能打造出一個高效的數(shù)據(jù)標(biāo)注平臺。”
據(jù)錢程介紹稱,澳鵬MatrixGo數(shù)據(jù)標(biāo)注平臺可以兩部分能力:
第一,項(xiàng)目管理功能,在一個實(shí)際項(xiàng)目中,整個數(shù)據(jù)標(biāo)注過程可以分為初始標(biāo)注、多輪質(zhì)檢,以及最后的數(shù)據(jù)驗(yàn)收,整個過程還存在數(shù)據(jù)打回、數(shù)據(jù)鎖定、數(shù)據(jù)釋放等環(huán)節(jié),例如在質(zhì)檢環(huán)節(jié)通過的標(biāo)注數(shù)據(jù),沒能通過最終驗(yàn)收,還會打回重新進(jìn)行數(shù)據(jù)標(biāo)注。MatrixGo平臺針對這樣的場景可以構(gòu)建靈活的工作流,整個工作過程可以自定義配置。
第二,數(shù)據(jù)標(biāo)注工具,針對文本、圖像、視頻、音頻、3D點(diǎn)云等各類數(shù)據(jù),MatrixGo平臺構(gòu)建了一整套數(shù)據(jù)標(biāo)注工具,澳鵬團(tuán)隊(duì)在項(xiàng)目中也在使用這些工具,在這些項(xiàng)目中不斷打磨這些工具。
這樣一套平臺既可以作為軟件直接提供給需要數(shù)據(jù)服務(wù)的廠商使用,也可以進(jìn)行私有化部署,錢程告訴至頂網(wǎng),”澳鵬正是通過這套平臺推動數(shù)據(jù)降本,服務(wù)提效的。“
除了通過降低人力成本、平臺成本,澳鵬還在合成數(shù)據(jù)上進(jìn)行了重點(diǎn)布局,而合成數(shù)據(jù),有可能成為未來數(shù)據(jù)降本的一個利器。
合成數(shù)據(jù)新趨勢
2022年3月,澳鵬以200萬英鎊收購了合成數(shù)據(jù)公司Mindtech Global的少數(shù)股權(quán)。與此同時,合成數(shù)據(jù)也正在成為行業(yè)的一個焦點(diǎn)。
“人工智能在實(shí)際落地之前通常針對特定場景需要做一些優(yōu)化,這個時候會需要大量針對特定場景的數(shù)據(jù)作為AI算法模型的訓(xùn)練數(shù)據(jù),如果僅僅依靠現(xiàn)場采集,針對一些特殊場景,無法采集到足夠的訓(xùn)練數(shù)據(jù),這時合成數(shù)據(jù)就是一個很好的選擇。”
不過,這里也存在一個人工智能技術(shù)發(fā)展成熟度的問題,由于自動駕駛針對艙外數(shù)據(jù)需求還普遍停留在優(yōu)化普通場景的階段,對合成數(shù)據(jù)的需求度并不高,澳鵬在合成數(shù)據(jù)領(lǐng)域的布局也還未真正來到產(chǎn)業(yè)落地關(guān)口,不過張先雄相信,“未來合成數(shù)據(jù)一定會變得越來越重要。”
而當(dāng)談到合成數(shù)據(jù)對人工智能降本的推動作用,張先雄告訴至頂網(wǎng),“未來針對真正落地之前的特定場景的增效百分比,合成數(shù)據(jù)能夠達(dá)到80%,甚至更高。”
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼