
CES 2025 | NVIDIA Isaac GR00T Blueprint 讓人形機(jī)器人“加速進(jìn)化”

“我們從哪里來?我們往哪里去?”這是人類永恒的追問,也是對智能時代邊界的叩問。
從鉆木取火到駕馭電力,從結(jié)繩記事到信息互聯(lián),每一次技術(shù)躍遷都深刻地改變著人類的生存方式和認(rèn)知邊界。如今,人工智能正以前所未有的速度發(fā)展,具身智能作為人工智能的重要載體,正逐漸從科幻走向現(xiàn)實(shí),叩響了智能進(jìn)化的新篇章。
它們能否像人類一樣感知、思考、行動?它們將如何與人類共存?這不僅是技術(shù)層面的挑戰(zhàn),更是對“智能”本質(zhì)的深刻拷問?·波普爾說,“我們所有的知識都只是猜測”,我們對具身智能的理解也同樣如此。我們試圖用機(jī)器來模擬人類的智能,但在這個過程中,也在不斷地反思和理解人類自身的智能是如何運(yùn)作的。這是一種雙向的啟發(fā)和促進(jìn),人工智能的發(fā)展,不僅推動了技術(shù)進(jìn)步,也促進(jìn)了人類對自身的認(rèn)知。
對智能邊界的不斷探索,驅(qū)動著技術(shù)的革新;趯ξ磥砭呱碇悄艿纳羁潭床欤2025 CES 期間,NVIDIA發(fā)布了一系列通用機(jī)器人基礎(chǔ)模型、數(shù)據(jù)管線和仿真框架,旨在加速下一代人形機(jī)器人的開發(fā)進(jìn)程。
師法自然:“合成數(shù)據(jù)”讓機(jī)器人“入門”
亞里士多德說“模仿是人類學(xué)習(xí)的第一天性”。人類的學(xué)習(xí)方式是復(fù)雜的,但模仿無疑是其中最原始、最有效的方式之一。“鸚鵡學(xué)舌”、“有樣學(xué)樣”,這些看似簡單的行為,蘊(yùn)含著深刻的智慧。從嬰兒蹣跚學(xué)步模仿父母的動作,到學(xué)徒模仿工匠的技藝,模仿貫穿了我們學(xué)習(xí)和成長的始終。模仿學(xué)習(xí)正是借鑒了這一自然規(guī)律,賦予機(jī)器人從示范中學(xué)習(xí)的能力。它避免了傳統(tǒng)機(jī)器人訓(xùn)練中繁瑣的編程和大量的試錯,使機(jī)器人能夠更快速、更直觀地掌握新技能
傳統(tǒng)的強(qiáng)化學(xué)習(xí),雖然能夠讓機(jī)器人在與環(huán)境的交互中不斷學(xué)習(xí)和優(yōu)化,但往往需要大量的試錯和精巧的獎勵函數(shù)設(shè)計,效率較低。而通過用于合成運(yùn)動生成的NVIDIA Isaac GR00T Blueprint,開發(fā)者只需少量人類示范,就能輕松生成海量的合成數(shù)據(jù)集,以便通過模仿學(xué)習(xí)訓(xùn)練人形機(jī)器人。
來源:NVIDIA
NVIDIA Isaac GR00T Blueprint中的GR00T-Teleop和GR00T-Mimic,正分別從不同的角度針對不同的應(yīng)用步驟提供解決方案。
GR00T-Teleop工作流側(cè)重于實(shí)時的遠(yuǎn)程操作和學(xué)習(xí),適用于需要人類干預(yù)或指導(dǎo)的復(fù)雜任務(wù)。它利用VR/AR頭顯、手柄等空間計算設(shè)備(Apple Vision Pro),為操作者創(chuàng)建沉浸式的虛擬環(huán)境。人類操作者佩戴這些設(shè)備后,可以在虛擬環(huán)境中以第一人稱視角控制機(jī)器人“化身”,身臨其境地操作機(jī)器人。操作者的動作會被精確捕捉,并通過高速網(wǎng)絡(luò)傳輸?shù)綑C(jī)器人身上,使機(jī)器人能夠?qū)崟r復(fù)現(xiàn)操作者的動作。這種方式不僅降低了機(jī)器人操作的門檻,且無需專業(yè)的編程知識,同時也為機(jī)器人學(xué)習(xí)復(fù)雜技能提供了有效的途徑。
GR00T-Mimic的核心技術(shù)則結(jié)合了多種前沿方法,旨在通過精確的動作模仿和增強(qiáng)學(xué)習(xí)能力,實(shí)現(xiàn)更自然的行為生成和高效的環(huán)境適應(yīng)。首先,GR00T-Mimic采用了先進(jìn)的深度學(xué)習(xí)模型來進(jìn)行軌跡建模,通過訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)以及Transformer等模型。運(yùn)用GR00T-Mimic能夠有效學(xué)習(xí)人類動作的軌跡和規(guī)律,進(jìn)而生成新的動作軌跡。
此外,隨著其對人體運(yùn)動理解的深入,圖神經(jīng)網(wǎng)絡(luò)(GNN)被引入用于建模人體骨骼的運(yùn)動關(guān)系,從而使得生成的動作更加自然和精確。為了進(jìn)一步優(yōu)化軌跡的質(zhì)量,GR00T-Mimic還融合了強(qiáng)化學(xué)習(xí)方法,能夠根據(jù)任務(wù)需求對生成的動作進(jìn)行自我調(diào)整和改進(jìn),提高執(zhí)行精度。
如果從工作流的角度劃分,GR00T-Teleop 工作流如同一位細(xì)致的抄寫員,忠實(shí)地記錄下人類動作的每一個細(xì)節(jié),仿佛是編寫一部關(guān)于“人”的百科全書的序章。
在完成這份初步的“抄寫”后,接下來的任務(wù)是對這些記錄進(jìn)行整理、擴(kuò)展和深化。GR00T-Mimic 工作流承擔(dān)了這一重任,它將有限的人類示范轉(zhuǎn)化為龐大的數(shù)據(jù)集。在這一過程中,“涌現(xiàn)”的現(xiàn)象逐漸顯現(xiàn),簡單的規(guī)則和模式相互作用,產(chǎn)生了復(fù)雜多樣的行為。
之后,利用基于 NVIDIA Omniverse 和 NVIDIA Cosmos 平臺構(gòu)建的GR00T-Gen 工作流,將數(shù)據(jù)集擴(kuò)展到指數(shù)級別。這一階段,不再是對已有信息的簡單復(fù)制,而是進(jìn)入了創(chuàng)造與演化的全新階段。
最終,這些數(shù)據(jù)集將會被注入到 NVIDIA Isaac Lab,成為機(jī)器人學(xué)習(xí)的“教科書”。此時,機(jī)器人不再是被動執(zhí)行指令的工具,而是開始主動適應(yīng)世界并實(shí)現(xiàn)進(jìn)化,最終掌握了在現(xiàn)實(shí)世界中執(zhí)行復(fù)雜任務(wù)的能力。
來源:NVIDIA
前景上看,GR00T Blueprint及相關(guān)技術(shù)將在多個行業(yè)中展現(xiàn)巨大潛力。如幫助制造業(yè)提高生產(chǎn)效率,物流業(yè)提升自動化和末端配送能力,醫(yī)療領(lǐng)域提升手術(shù)精度和護(hù)理質(zhì)量,建筑業(yè)提高施工效率和安全性,服務(wù)業(yè)改善用戶體驗(yàn)。此外,GR00T Blueprint將推動機(jī)器人技術(shù)的標(biāo)準(zhǔn)化和模塊化,降低開發(fā)成本,縮短開發(fā)周期,為機(jī)器人應(yīng)用的普及與創(chuàng)新提供強(qiáng)大支持。
虛實(shí)相生:Cosmos讓AI更靠近“現(xiàn)實(shí)宇宙”
“存在即合理”,這是黑格爾的名言。然而,對于在理解和交互物理世界的物理AI而言,僅僅“存在”是不夠的,還需要能夠理解和模擬“存在”的數(shù)據(jù)。真實(shí)世界的數(shù)據(jù)固然重要,但其采集、標(biāo)注和使用面臨諸多挑戰(zhàn),如同柏拉圖《理想國》中描述的洞穴囚徒,我們所能接觸到的只是投射在墻壁上的影子,而非事物的本質(zhì)。
一直以來,海量的數(shù)據(jù)需求、繁瑣的數(shù)據(jù)標(biāo)注、以及難以獲取的極端場景......這些挑戰(zhàn)就像一道道屏障,阻礙著物理AI的發(fā)展。NVIDIA 在CES 2025期間發(fā)布的Cosmos,正打破這些屏障,為物理AI的發(fā)展注入新的活力。
Cosmos并非簡單地提供現(xiàn)成的數(shù)據(jù),而是構(gòu)建了一個強(qiáng)大的平臺,它基于世界基礎(chǔ)模型(WFM),能夠生成高度逼真的合成數(shù)據(jù),就像創(chuàng)造了一個虛擬的“宇宙”,讓AI系統(tǒng)在這個虛擬世界中自由探索和學(xué)習(xí)。
那么,Cosmos是如何構(gòu)建這個“宇宙”的呢?其核心在于其世界基礎(chǔ)模型(WFM),它們是經(jīng)過海量數(shù)據(jù)訓(xùn)練的生成模型,能夠理解和模擬物理世界的各種規(guī)律,例如物體的運(yùn)動、碰撞、光照、材質(zhì)等等。有了這些“定律”,Cosmos就能創(chuàng)造出各種各樣的虛擬場景,從簡單的物體運(yùn)動到復(fù)雜的交通環(huán)境,應(yīng)有盡有。Cosmos使用WFM可以從Omniverse平臺上開發(fā)的可控3D場景中生成逼真視頻。“使用Cosmos 模型從NVIDIA Omniverse™ 平臺上開發(fā)的可控3D 場景中生成逼真視頻。同時,開發(fā)者無需從零開始構(gòu)建復(fù)雜的物理模擬環(huán)境,大大降低了開發(fā)難度。
來源:NVIDIA
有了“宇宙”,還需要高效的“信號”來傳遞信息。Cosmos可以將圖像和視頻轉(zhuǎn)換為高保真度的“數(shù)據(jù)令牌”。這種轉(zhuǎn)換不僅提高了數(shù)據(jù)處理的效率,還有助于模型更好地理解和處理視覺信息。NVIDIA Cosmos Tokenizer 是先進(jìn)的可視化tokenizer(Tokenizer是預(yù)處理文本數(shù)據(jù)的重要步驟,它將連續(xù)的文本切分成具有實(shí)際意義的詞匯或子詞序列。)可將圖像和視頻轉(zhuǎn)換成token。與當(dāng)前領(lǐng)先的tokenizer 相比,其總壓縮率提高了8 倍,處理速度提高了12 倍。
要讓“宇宙”高效運(yùn)轉(zhuǎn),還需要強(qiáng)大的“引擎”。Cosmos利用NVIDIA的GPU加速技術(shù)和NeMo Curator驅(qū)動的數(shù)據(jù)處理管線,構(gòu)建了高效的數(shù)據(jù)處理和策劃管道。使用NVIDIA 的計算平臺,Cosmos可以在14天內(nèi)處理、整理和標(biāo)記2000萬小時的視頻,而使用CPU則需要3年以上。“NVIDIA NeMo™ Curator 驅(qū)動的NVIDIA AI 和CUDA® 加速數(shù)據(jù)處理管線,使開發(fā)者能夠使用NVIDIA 的計算平臺 在14 天內(nèi)處理、整理和標(biāo)記2000 萬小時的視頻,而如果單純使用CPU 則需要3 年以上。
Cosmos不僅創(chuàng)造了“宇宙”,還提供了“實(shí)驗(yàn)室”,供AI模型進(jìn)行各種實(shí)驗(yàn)和研究。開發(fā)者可以在WFM的基礎(chǔ)上構(gòu)建自定義模型,使用Cosmos進(jìn)行強(qiáng)化學(xué)習(xí)以改進(jìn)模型,或者測試模型在特定仿真場景中的表現(xiàn)。Cosmos可以用于預(yù)測與“多元宇宙”模擬,生成AI模型所有未來可能實(shí)現(xiàn)的結(jié)果,幫助其選擇最佳和最準(zhǔn)確的路徑。
事實(shí)上,Cosmos也并非孤立存在,它能與NVIDIA Omniverse、NVIDIA NeMo等技術(shù)緊密集成,形成了一個完整的物理AI開發(fā)生態(tài)系統(tǒng)。這就像是“宇宙”的不同組成部分,相互關(guān)聯(lián)、相互作用,共同構(gòu)成一個完整的體系。
有了這個強(qiáng)大的“宇宙”,物理AI的應(yīng)用前景變得更加廣闊:自動駕駛汽車可以在虛擬的道路上行駛數(shù)百萬英里,機(jī)器人可以在虛擬的工廠里進(jìn)行各種操作,而無需擔(dān)心安全和成本問題。
目前,交通運(yùn)輸領(lǐng)域的領(lǐng)先企業(yè)也在使用Cosmos構(gòu)建適用于自動駕駛汽車的物理AI。Agility的首席技術(shù)官Pras Velagapudi表示,Cosmos能夠生成和增強(qiáng)逼真的場景,并利用這些場景訓(xùn)練模型,而不需要采集那么多昂貴的真實(shí)數(shù)據(jù)。“借助Cosmos 的文本、圖像和視頻到‘世界’的能力,我們能夠在各種任務(wù)中生成和增強(qiáng)逼真的場景并利用這些場景訓(xùn)練模型,而不需要采集那么多昂貴的真實(shí)數(shù)據(jù)。”
寫在最后:賦予智能無限的進(jìn)化空間
NVIDIA Isaac GR00T、Omniverse 和 Cosmos 正構(gòu)建一個前所未有的生態(tài)系統(tǒng),推動物理 AI 和人形機(jī)器人領(lǐng)域?qū)崿F(xiàn)巨大飛躍。從波士頓動力和 Figure 等行業(yè)領(lǐng)軍者率先采用NVIDIA Isaac GR00T 并展示相關(guān)成果可以看出,人形機(jī)器人正加速走出實(shí)驗(yàn)室,走向現(xiàn)實(shí)應(yīng)用。
事實(shí)上,在科學(xué)研究中,演繹與歸納方法是兩種重要的推理方式,這位為人類理解世界提供了不同的路徑。演繹推理從一般性原則出發(fā),通過邏輯推導(dǎo)得出具體結(jié)論;而歸納推理則從個別事實(shí)出發(fā),通過觀察總結(jié)出普遍性規(guī)律。
遵循規(guī)律,基于對物理世界規(guī)律的理解(例如運(yùn)動學(xué)、動力學(xué)),通過 Cosmos 和 Omniverse 構(gòu)建虛擬環(huán)境,進(jìn)行“演繹”,推導(dǎo)出機(jī)器人在不同場景下的行為模式。通過 Isaac GR00T 和實(shí)際機(jī)器人進(jìn)行實(shí)驗(yàn),收集數(shù)據(jù),進(jìn)行“歸納”,驗(yàn)證和修正之前的推論,并進(jìn)一步完善模型。這種“演繹-歸納”的循環(huán)往復(fù),不斷推動著機(jī)器人技術(shù)的進(jìn)步,使其更加精確、智能。它也類似于控制論中的反饋機(jī)制,通過不斷地比較實(shí)際輸出和期望輸出之間的差異,進(jìn)行調(diào)整和優(yōu)化,最終達(dá)到控制目標(biāo)。
這種不斷自我完善的能力,賦予了它們無限的成長空間,也預(yù)示著機(jī)器人智能的未來擁有無限的可能。
這是一種進(jìn)化,是硅基生命演化的另一種形式。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
