7月12日消息,據(jù)外電報道,谷歌正在使用 Gemini AI 訓練其機器人,以便它們能夠更好地導航和完成任務(wù)。
DeepMind 機器人團隊在一篇新研究論文中解釋了如何使用Gemini 1.5 Pro的長上下文窗口(決定 AI 模型可以處理多少信息)讓用戶更輕松地使用自然語言指令與其RT-2 機器人進行交互。
這項技術(shù)的工作原理是拍攝指定區(qū)域(例如家庭或辦公室空間)的視頻,研究人員使用 Gemini 1.5 Pro 讓機器人觀看視頻以了解環(huán)境。
然后,機器人可以根據(jù)觀察到的情況,使用口頭和/或圖像輸出執(zhí)行命令 - 例如在向用戶展示手機并詢問「我在哪里可以給它充電?」之后,引導用戶到電源插座。
DeepMind 表示,其 Gemini 驅(qū)動的機器人在 9,000 多平方英尺的操作區(qū)域內(nèi)對 50 多條用戶指令的成功率達到 90%。
研究人員還發(fā)現(xiàn)初步證據(jù),表明 Gemini 1.5 Pro 使其機器人能夠規(guī)劃如何執(zhí)行除導航之外的指令。
例如,當辦公桌上有很多可樂罐的用戶詢問機器人是否有他們最喜歡的飲料時,該團隊表示 Gemini知道機器人應(yīng)該導航到冰箱,檢查是否有可樂,然后返回給用戶報告結(jié)果。
DeepMind 表示計劃進一步調(diào)查這些結(jié)果。
谷歌提供的視頻演示令人印象深刻,盡管根據(jù)研究報告,機器人確認每個請求后明顯的切換掩蓋了處理這些指令需要 10-30 秒的時間。我們可能還需要一段時間才能與更先進的環(huán)境地圖機器人共享我們的家園,但至少這些機器人可能能夠找到我們丟失的鑰匙或錢包。