英偉達最近在機器人領域取得了一項重大突破,成功利用Apple Vision Pro解決了長期困擾機器人的數據擴展問題。這項突破來自英偉達的GR00T計畫,目的在於開發一個通用的機器人基礎模型,使其能夠處理多種指令並完成各種動作。這個模型能夠理解多種指令,並將過去的互動經驗轉化為機器人的動作,包含高級的推理和規劃系統,以及快速、準確的運動系統。
InfoAI智能情報 { 新聞 }
英偉達的研究人員運用了Apple Vision Pro來控制人形機器人。這款設備可以讓操作員從第一人稱視角進行操控,並實時解析他們的手部動作,然後把這些動作傳送給機器人。這樣一來,操作員就像身處在機器人的身體中一樣,雖然遠程操作較為緩慢,但可以有效收集到必要的數據。
創新仿真技術
英偉達還開發了一個名為RoboCasa的仿真框架,通過在虛擬環境中創建大量不同的場景來擴展數據。例如,研究人員可以在數以千計的虛擬廚房中模擬機器人放置杯子的動作,儘管在現實中他們只有一個實際的廚房。
另外,英偉達還使用了MimicGen技術來進一步擴展數據。MimicGen能夠根據原始的手部動作生成大量新的動作軌跡,並過濾掉那些失敗的動作,最終形成一個龐大的數據集。
解決數據擴展難題
這些技術的結合有效解決了機器人學習中的一個主要挑戰:真實數據收集的高成本和低效率。透過GPU加速的仿真技術,英偉達成功將稀有的實際數據轉化為海量的訓練樣本,極大地提升了機器人的學習效率。
GR00T計畫概述
GR00T計畫的目標是為仿人機器人開發一個通用的基礎模型,使其能夠處理多種指令並完成各種動作。技術核心包括多模式指令處理和利用過去的互動經驗來提升機器人的行為和反應能力。數據擴展方法則包括使用Apple Vision Pro提供第一人稱視角,實時解析操作者的手部動作,並將這些動作傳送到機器人身上,從而收集實際操作數據。此外,英偉達開發的RoboCasa仿真框架和MimicGen技術進一步擴展數據,通過生成大量新的動作軌跡並過濾掉失敗的動作,形成更大的數據集。
技術突破包括通過GPU加速的仿真技術,將稀有的實際數據轉化為大量的訓練樣本,解決了數據收集的高成本和低效率問題。GR00T計畫將“擴展法則”應用於機器人領域,這是最初在大語言模型(LLM)領域提出的概念,描述了模型性能與數據量和模型規模之間的關係。
GR00T未來計畫將推動跨模態學習,結合視覺、觸覺等多種模態,提升機器人的泛化能力。通過生成多樣的虛擬環境,提升模型在不同情境下的表現和適應能力。
未來展望
英偉達的這一突破可能會引領機器人領域的“擴展法則”進一步發展。未來,機器人可能會在數據量、傳感器精度、執行器自由度和仿真環境的真實度等方面實現更多的突破,從而提升機器人的學習能力和適應速度。
隨著這些創新技術的應用,我們或許能夠看到機器人在處理複雜任務和多樣化環境中的表現有更大提升。
InfoAI,給你駕馭AI的知識和技能,成為AI時代的專家與達人。
InfoAI智能情報:助你駕馭AI創造新價值
www.InfoAI.com.tw
延伸閱讀
解讀 OpenAI 員工大會上的人工智能進化路線圖
https://www.infoai.com.tw/blog/ai-stages
打破雲端依賴,推動企業AI本地化革命
https://www.infoai.com.tw/blog/nvidia-mistra
人類技能的重要性:AI時代的不可或缺資源
https://www.infoai.com.tw/blog/the-importance-of-human-skills
AI 革命:重塑未來職場的關鍵
https://www.infoai.com.tw/blog/reshaping-the-future-workplace
https://www.infoai.com.tw/blog/ai-jobs-displacement
https://www.infoai.com.tw/blog/ai-ceo
https://www.infoai.com.tw/blog/the-arrival-of-gpt-5