
自動(dòng)駕駛的「數(shù)據(jù)引擎」,該如何“降本”、“增效”和“精準(zhǔn)化”?

未來(lái)針對(duì)真正落地之前的特定場(chǎng)景的增效百分比,合成數(shù)據(jù)能夠達(dá)到80%,甚至更高。
80%的數(shù)據(jù)+20%的模型=更好的AI。
這是人工智能領(lǐng)域知名學(xué)者吳恩達(dá)在他45歲生日當(dāng)天提出的人工智能領(lǐng)域的“二八定律”,他說(shuō)“讓我們的工作從以模型為中心轉(zhuǎn)向以數(shù)據(jù)為中心,將對(duì)很多(人工智能)團(tuán)隊(duì)大有裨益。”
在過(guò)往十幾年人工智能產(chǎn)業(yè)高速發(fā)展過(guò)程中,算法模型研發(fā)的重要性被空前放大,互聯(lián)網(wǎng)大廠更是動(dòng)輒為算法工程師開(kāi)出百萬(wàn)年薪,這讓本就默默無(wú)聞的數(shù)據(jù)一度沒(méi)什么光環(huán)。
實(shí)際上,時(shí)下主流AI算法要以數(shù)據(jù)驅(qū)動(dòng)仍是一個(gè)不爭(zhēng)的事實(shí),在人工智能產(chǎn)業(yè)中,數(shù)據(jù)收集、數(shù)據(jù)處理仍是關(guān)鍵的前置環(huán)節(jié),而支撐這些前置環(huán)節(jié)的是一個(gè)龐大的數(shù)據(jù)服務(wù)產(chǎn)業(yè)。
澳鵬就是這樣一家數(shù)據(jù)服務(wù)供應(yīng)商,澳鵬Appen(中國(guó))產(chǎn)品及研發(fā)總監(jiān)錢(qián)程告訴至頂網(wǎng),“隨著近年來(lái)人工智能工業(yè)化和工程化成為趨勢(shì),企業(yè)對(duì)定制化、復(fù)雜性的數(shù)據(jù)需求度越來(lái)越高,而對(duì)于一些商業(yè)化落地比較好的公司,他們需要的數(shù)據(jù)量也在成倍增長(zhǎng)。”
數(shù)據(jù)成本的增加,也就成了企業(yè)加載人工智能引擎時(shí)無(wú)可回避的一個(gè)問(wèn)題。
高質(zhì)量數(shù)據(jù)為什么是自動(dòng)駕駛的關(guān)鍵
自動(dòng)駕駛是當(dāng)下商業(yè)化落地比較好的一個(gè)應(yīng)用場(chǎng)景,也是澳鵬一個(gè)核心業(yè)務(wù)場(chǎng)景,自動(dòng)駕駛涉及的數(shù)據(jù)服務(wù)按場(chǎng)景劃分又可以劃分為兩大類——艙內(nèi)數(shù)據(jù)、艙外數(shù)據(jù)。
澳鵬Appen(中國(guó))高級(jí)客戶經(jīng)理張先雄告訴至頂網(wǎng),“2016年-2020年,我們拿到的絕大部分?jǐn)?shù)據(jù)服務(wù)訂單是以車內(nèi)場(chǎng)景為主,車內(nèi)場(chǎng)景主要涉及的是人車交互(TTS合成、語(yǔ)音識(shí)別)和車內(nèi)人的輿情監(jiān)控(人的情緒識(shí)別、是否安全駕駛的識(shí)別),相比起車外場(chǎng)景,車內(nèi)場(chǎng)景相對(duì)簡(jiǎn)單,能到千萬(wàn)級(jí)別的項(xiàng)目很少。”
不過(guò),隨著自動(dòng)駕駛進(jìn)程提速,尤其是在自動(dòng)駕駛道路測(cè)試牌照陸續(xù)發(fā)放后,自動(dòng)駕駛廠商紛紛開(kāi)始向L3及以上的自動(dòng)駕駛技術(shù)沖刺,這時(shí),自動(dòng)駕駛廠商對(duì)艙外數(shù)據(jù)服務(wù)的需求也與日俱增。這樣的需求變化既有數(shù)據(jù)需求量的增長(zhǎng),也有更復(fù)雜的數(shù)據(jù)類型的變化。
從數(shù)據(jù)量來(lái)看,艙內(nèi)數(shù)據(jù)需求量基本在億幀以下,而艙外數(shù)據(jù)需求量都在億幀以上,甚至?xí)_(dá)到幾十億幀的規(guī)模;從數(shù)據(jù)類型來(lái)看,艙外的數(shù)據(jù)類型既有攝像頭拍攝的圖像數(shù)據(jù),也有激光雷達(dá)3D點(diǎn)云數(shù)據(jù),數(shù)據(jù)標(biāo)注起來(lái)更為復(fù)雜。
以艙外為主的數(shù)據(jù)標(biāo)注服務(wù)的不斷涌現(xiàn),也使得數(shù)據(jù)成本急劇上升。
身在潮流中的澳鵬自然也感受到了這樣的變化,據(jù)張先雄透露,“從2020年左右,L3及以上的自動(dòng)駕駛研發(fā),越來(lái)越受市場(chǎng)關(guān)注,我們能看到一些重投入客戶一年會(huì)拿出幾個(gè)億的預(yù)算來(lái)做數(shù)據(jù)標(biāo)注,少一點(diǎn)的也在千萬(wàn)級(jí)別。”
僅僅是每年在數(shù)據(jù)標(biāo)注上的投入,就已經(jīng)相當(dāng)于不少中小型企業(yè)的年?duì)I收,這也使得提起人工智能時(shí),不少中小體量企業(yè)會(huì)望而卻步。
對(duì)于企業(yè)而言,如何低成本獲取高質(zhì)量數(shù)據(jù)就成了他們?cè)谶@個(gè)時(shí)代的剛需。
數(shù)據(jù)如何降本、增效、精準(zhǔn)化
作為一家成立于1996年的數(shù)據(jù)服務(wù)公司,澳鵬在數(shù)據(jù)服務(wù)領(lǐng)域已經(jīng)深耕多年,根據(jù)澳鵬最新發(fā)布的《人工智能和機(jī)器學(xué)習(xí)全景報(bào)告》調(diào)查數(shù)據(jù)顯示,42%的技術(shù)專家表示, AI生命周期中的數(shù)據(jù)獲取階段很有挑戰(zhàn)性。這樣的挑戰(zhàn)同樣存在于自動(dòng)駕駛領(lǐng)域。
錢(qián)程告訴至頂網(wǎng),AI在自動(dòng)駕駛項(xiàng)目中部署產(chǎn)生的成本主要來(lái)自兩方面,一方面是硬件成本,另一方面則是人力成本。人力成本主要集中在數(shù)據(jù)服務(wù)上,這其中既有平臺(tái)建設(shè)上的人力投入,也有數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注上的人力投入。
以特斯拉為例,特斯拉現(xiàn)在已經(jīng)建立起千人規(guī)模的數(shù)據(jù)標(biāo)注團(tuán)隊(duì),搭建了一套用于數(shù)據(jù)標(biāo)注的軟件平臺(tái),針對(duì)數(shù)據(jù)標(biāo)注的軟件平臺(tái),特斯拉還有一個(gè)完整的開(kāi)發(fā)維護(hù)團(tuán)隊(duì)。
實(shí)際上,除了自建數(shù)據(jù)服務(wù)團(tuán)隊(duì)外,不少車廠也在與數(shù)據(jù)服務(wù)商合作,以此降低人力成本。張先雄告訴至頂網(wǎng),“國(guó)內(nèi)不少整車廠、汽車解決方案廠商,以及造車新勢(shì)力都在使用我們的數(shù)據(jù)服務(wù),自動(dòng)駕駛領(lǐng)域的營(yíng)收也已經(jīng)占到我們公司整體營(yíng)收的較大比重。”
以澳鵬與某自動(dòng)駕駛廠商艙外合作項(xiàng)目為例,張先雄透露,“項(xiàng)目推進(jìn)過(guò)程中受到數(shù)據(jù)采集流轉(zhuǎn)集中度影響其實(shí)存在波峰波谷,在項(xiàng)目推進(jìn)波峰期,有時(shí)一次會(huì)傳回幾億幀,甚至幾十億幀的圖像數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行清洗、標(biāo)注的團(tuán)隊(duì)投入就要達(dá)到5000-10000人,即便是在波谷期也要一兩千人團(tuán)隊(duì)做服務(wù)支持。”
目前,澳鵬在全球擁有超過(guò)100萬(wàn)名技能嫻熟的眾包資源,支持235+種語(yǔ)言和方言,遍布170+個(gè)國(guó)家和70000個(gè)地區(qū),在中國(guó)擁有超過(guò)千余名全職員工、1000+BPO資源、數(shù)萬(wàn)名高質(zhì)量本土眾包人員,擁有專業(yè)的評(píng)估和項(xiàng)目團(tuán)隊(duì)全程跟進(jìn)試標(biāo)、采集、標(biāo)注、質(zhì)檢、驗(yàn)收和交付流程。
除了通過(guò)與數(shù)據(jù)服務(wù)商合作以降低人工智能落地成本外,在澳鵬內(nèi)部,也在通過(guò)搭建搭建數(shù)據(jù)標(biāo)注平臺(tái)來(lái)提效降本。
2019年,在人工智能高速發(fā)展這一年,澳鵬搭建了人工智能數(shù)據(jù)標(biāo)注平臺(tái),錢(qián)程告訴至頂網(wǎng),“平臺(tái)帶來(lái)的效率提升是最直接的,也是最容易被客戶忽略的。”
實(shí)際上,平臺(tái)開(kāi)發(fā)最難的不是前期幾百萬(wàn)、幾千萬(wàn)成本的投入,而是搭建團(tuán)隊(duì)有多少項(xiàng)目經(jīng)驗(yàn),團(tuán)隊(duì)見(jiàn)到過(guò)多少數(shù)據(jù)類型、看到過(guò)多少不同細(xì)分場(chǎng)景的數(shù)據(jù)邏輯和規(guī)則,“只有經(jīng)歷過(guò)多個(gè)項(xiàng)目、不同場(chǎng)景實(shí)戰(zhàn)經(jīng)驗(yàn),才能打造出一個(gè)高效的數(shù)據(jù)標(biāo)注平臺(tái)。”
據(jù)錢(qián)程介紹稱,澳鵬MatrixGo數(shù)據(jù)標(biāo)注平臺(tái)可以兩部分能力:
第一,項(xiàng)目管理功能,在一個(gè)實(shí)際項(xiàng)目中,整個(gè)數(shù)據(jù)標(biāo)注過(guò)程可以分為初始標(biāo)注、多輪質(zhì)檢,以及最后的數(shù)據(jù)驗(yàn)收,整個(gè)過(guò)程還存在數(shù)據(jù)打回、數(shù)據(jù)鎖定、數(shù)據(jù)釋放等環(huán)節(jié),例如在質(zhì)檢環(huán)節(jié)通過(guò)的標(biāo)注數(shù)據(jù),沒(méi)能通過(guò)最終驗(yàn)收,還會(huì)打回重新進(jìn)行數(shù)據(jù)標(biāo)注。MatrixGo平臺(tái)針對(duì)這樣的場(chǎng)景可以構(gòu)建靈活的工作流,整個(gè)工作過(guò)程可以自定義配置。
第二,數(shù)據(jù)標(biāo)注工具,針對(duì)文本、圖像、視頻、音頻、3D點(diǎn)云等各類數(shù)據(jù),MatrixGo平臺(tái)構(gòu)建了一整套數(shù)據(jù)標(biāo)注工具,澳鵬團(tuán)隊(duì)在項(xiàng)目中也在使用這些工具,在這些項(xiàng)目中不斷打磨這些工具。
這樣一套平臺(tái)既可以作為軟件直接提供給需要數(shù)據(jù)服務(wù)的廠商使用,也可以進(jìn)行私有化部署,錢(qián)程告訴至頂網(wǎng),”澳鵬正是通過(guò)這套平臺(tái)推動(dòng)數(shù)據(jù)降本,服務(wù)提效的。“
除了通過(guò)降低人力成本、平臺(tái)成本,澳鵬還在合成數(shù)據(jù)上進(jìn)行了重點(diǎn)布局,而合成數(shù)據(jù),有可能成為未來(lái)數(shù)據(jù)降本的一個(gè)利器。
合成數(shù)據(jù)新趨勢(shì)
2022年3月,澳鵬以200萬(wàn)英鎊收購(gòu)了合成數(shù)據(jù)公司Mindtech Global的少數(shù)股權(quán)。與此同時(shí),合成數(shù)據(jù)也正在成為行業(yè)的一個(gè)焦點(diǎn)。
“人工智能在實(shí)際落地之前通常針對(duì)特定場(chǎng)景需要做一些優(yōu)化,這個(gè)時(shí)候會(huì)需要大量針對(duì)特定場(chǎng)景的數(shù)據(jù)作為AI算法模型的訓(xùn)練數(shù)據(jù),如果僅僅依靠現(xiàn)場(chǎng)采集,針對(duì)一些特殊場(chǎng)景,無(wú)法采集到足夠的訓(xùn)練數(shù)據(jù),這時(shí)合成數(shù)據(jù)就是一個(gè)很好的選擇。”
不過(guò),這里也存在一個(gè)人工智能技術(shù)發(fā)展成熟度的問(wèn)題,由于自動(dòng)駕駛針對(duì)艙外數(shù)據(jù)需求還普遍停留在優(yōu)化普通場(chǎng)景的階段,對(duì)合成數(shù)據(jù)的需求度并不高,澳鵬在合成數(shù)據(jù)領(lǐng)域的布局也還未真正來(lái)到產(chǎn)業(yè)落地關(guān)口,不過(guò)張先雄相信,“未來(lái)合成數(shù)據(jù)一定會(huì)變得越來(lái)越重要。”
而當(dāng)談到合成數(shù)據(jù)對(duì)人工智能降本的推動(dòng)作用,張先雄告訴至頂網(wǎng),“未來(lái)針對(duì)真正落地之前的特定場(chǎng)景的增效百分比,合成數(shù)據(jù)能夠達(dá)到80%,甚至更高。”
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
