6月28日消息,在谷歌的最新播客中,機器人在Gemini人工智能技術的加持下,未經教授就完成了一次“扣籃”動作,展現出迅速適應新場景的能力。
兩天前的洛杉磯,運行著Gemini Robotics On-Device 模型的機器人還在RSS2025(機器人軟件與系統大會)上完成了全球首個互動式現場展示。硅谷AI觀察人士Ted Xiao表示,“它仿佛是對未來的神奇一瞥——只需與你的機器人對話,它就會做出適當的回應,并嘗試執行一些合理的操作。新的物體、新的命令、新的技能。”

谷歌Gemini Robotics On-Device 模型發布于6月24日,AI 被引入了機器人,在整個過程中不需要持續的互聯網連接,機器人實現了脫機工作。
谷歌在X上表示,這是自己首個“視覺-語言-動作”模型,旨在能夠幫助機器人更快、更高效地適應新任務和新環境。如果我們稍加回憶,今年2月底,Figure發布的“歷史上最重大的人工智能更新”——Helix也是一款用于通用人形機器人控制的“視覺-語言-動作”(VLA) 模型。
不同的是,由于谷歌家的這款模型獨立于數據網絡運行,它對延遲敏感的應用程序很有幫助,并確保了間歇性或零連接環境中的穩健性。

事實上,早在今年3月,谷歌就推出了第一代VLA(視覺語言動作)模型Gemini Robotics,將Gemini 2.0的多模態推理和現實世界理解帶入物理世界。
而作為雙臂機器人的基礎模型的新選手Gemini Robotics On-Device ,除了最大限度減少計算資源需求之外,主要解決3個問題:靈巧操作、新任務的微調和適應、基于本地運行的低延遲快速推理。

官方演示視頻中,這一對靈巧手不僅可以拿起一支筆,還可以相互配合拔掉筆蓋。

在接下來的測試中,這一對靈巧手完成了“放置藍色的磚塊”、“拉開中間的抽屜”和“歸位‘梨’模型”的任務,顯示出強大的視覺、語義和行為泛化能力,并且僅僅依賴自然語言指令——“Can you close the middle drawer”?
演示之外,基礎跑分數據上,Gemini Robotics On-Device也有不俗的表現。
首先是泛化能力,谷歌直接拉出了“當家花旦”——旗艦 Gemini Robotics 模型和 Previous Best On-Device模型進行比拼。結果上,Gemini Robotics On-Device雖然略低于旗艦產品的表現,但也超出之前最好的離線模型一大截。

而在分布式任務和復雜的多步驟指令方面,Gemini Robotics On-Device 模型的表現也優于其他設備端替代方案。

早在2月Figure的相關文章中就曾提到,“與受控的工業環境不同,家里堆滿了無數的物品——精致的玻璃器皿、皺巴巴的衣服、散落的玩具——每件物品都有不可預測的形狀、大小、顏色和紋理。為了讓機器人在家庭中發揮作用,它們需要能夠按需產生智能的新行為,尤其是對它們從未見過的物體。”機器人技術上的一大難題在于,舉一反一簡單,舉一反三并不容易。
如何處理在訓練樣本中從未見過的任務,直接反映了機器人對新任務的適應能力。Figure家的Helix 給出的解法是使用一組神經網絡權重來學習所有行為,建立了兩個可以通信的“系統 1、系統 2”來分別完成“想”和“干”,而無需任何針對特定任務的微調。
而Gemini Robotics On-Device 給開發者提供了微調的選擇,通過50 到 100 次演示即可快速適應新任務。微調任務的跑分如下:

在喂了Gemini Robotics On-Device 100個以內的示例之后,它展現出了如上圖所示的適應能力。
谷歌還公布了這一性能的演示,并將其進一步調整到了雙臂Franka FR3 機器人和Apptronik 的Apollo 人形機器人中。
在雙臂 Franka 上,該模型執行通用指令,可以處理以前未見過的物體和場景、完成折疊衣服等靈巧的任務,包括需要精確度和靈巧性的工業皮帶組裝任務。

在阿波羅人形機器人上同樣如此,通用模型可以遵循自然語言指令,以通用的方式操控不同的物體,包括之前從未見過的物體。

對此,有網友認為,谷歌的脫機AI機器人存在改變游戲規則的可能性。

當然,也有網友并不買賬。提問這和特斯拉機器人的設計有什么不同,又和ylecun在Meta所做的工作有什么不一樣。


在機器人/具身智能這個賽道,各家大模型正在“八仙過海”,技術向度展現出了多樣性和豐富性,但最終指向了同一個命題——如何讓AI在三維物理世界建立真正的因果認知。
或許正如谷歌在技術白皮書中所寫:“機器人不應是人類的模仿者,而應成為物理世界的解讀者”。