http://007sbw.cn 2025-08-14 10:12 來源:智元機器人
智元機器人重磅推出面向真實世界機器人操控的統(tǒng)一世界模型平臺 --- Genie Envisioner(GE)。 不同于傳統(tǒng)“數據—訓練—評估”割裂的流水線模式,GE將未來幀預測、策略學習與仿真評估首次整合進以視頻生成為核心的閉環(huán)架構,使機器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執(zhí)行。基于3000小時真機數據,GE-Act不僅在跨平臺泛化和長時序任務執(zhí)行上顯著超越現有SOTA,更為具身智能打開了從視覺理解到動作執(zhí)行的全新技術路徑。
🔹 Project pagehttps://genie-envisioner.github.io/
🔹 Arxivhttps://arxiv.org/abs/2508.05635
🔹Githubhttps://github.com/AgibotTech/Genie-Envisioner
當前機器人學習系統(tǒng)普遍采用分階段開發(fā)模式——數據收集、模型訓練、策略評估,每個環(huán)節(jié)相互獨立,并需要專門的基礎設施和任務特定調優(yōu)。這種碎片化架構增加了開發(fā)復雜度,延長了迭代周期,限制了系統(tǒng)的可擴展性。GE平臺通過構建統(tǒng)一的視頻生成世界模型,將這些分散的環(huán)節(jié)集成到一個閉環(huán)系統(tǒng)中?;诩s3000小時的真實機器人操控視頻數據,GE建立了從語言指令到視覺空間的直接映射,保留了機器人與環(huán)境交互的完整時空信息。
01/核心創(chuàng)新:視覺中心的世界建模范式
GE的核心突破在于構建了基于世界模型的以視覺中心的建模范式。不同于主流VLA(Vision-Language-Action)方法依賴視覺-語言模型將視覺輸入映射到語言空間進行間接建模,GE直接在視覺空間中建模機器人與環(huán)境的交互動態(tài)。這種方法完整保留了操控過程中的空間結構和時序演化信息,實現了對機器人-環(huán)境動態(tài)更精確、更直接的建模。這一視覺中心的建模范式帶來了兩個關鍵優(yōu)勢:
高效的跨本體泛化能力
基于強大的視覺空間預訓練,GE-Act僅需極少量數據即可實現跨平臺遷移。在Agilex Cobot Magic和Dual Franka等全新機器人平臺上,GE-Act僅使用1小時(約250個演示)的遙操作數據就實現了高質量的任務執(zhí)行。相比之下,即使是在多本體數據上有大規(guī)模預訓練的π0和GR00T模型,在相同數據量下的表現也不如GE-Act。
這種高效泛化源于GE-Base在視覺空間中學習到的通用操控表征。通過直接建模視覺動態(tài)而非依賴語言抽象,模型能夠捕捉到跨平臺共享的底層物理規(guī)律和操控模式,從而實現快速適配。
長時序任務的精確執(zhí)行能力
更重要的是,視覺中心建模賦予了GE強大的未來時空預測能力。通過在視覺空間中顯式建模時序演化,GE-Act能夠規(guī)劃和執(zhí)行需要長時序推理的復雜任務。
在折疊紙盒等超長步驟任務中,GE-Act展現出了遠超現有SOTA方法的性能。以紙盒折疊為例,這項任務需要精確執(zhí)行超過10個連續(xù)子步驟,每個步驟都依賴于前序動作的準確完成。GE-Act達到了76%的成功率,而專門針對柔性物體操控優(yōu)化的π0僅為48%,UniVLA和GR00T則完全無法完成(0%成功率)。
這種長時序執(zhí)行能力的提升不僅源于GE的視覺世界建模,同時也得益于我們創(chuàng)新設計的sparse memory模塊。通過這樣的模塊設計,能夠幫助機器人選擇性地保留關鍵歷史信息,從而在長時序任務中保持精確的上下文理解。通過預測未來的視覺狀態(tài),GE-Act能夠"預見"動作的長期后果,從而生成更連貫、更穩(wěn)定的操控序列。相比之下,基于語言空間的方法在長時序任務中容易出現誤差累積和語義漂移。
02/技術架構:三大核心組件
基于視覺中心建模理念,GE平臺包含三個緊密集成的組件:
GE-Base:多視角視頻世界基礎模型
GE-Base是整個平臺的核心基礎,采用自回歸視頻生成框架,將輸出分割為離散的視頻塊(video chunks),每塊包含N幀。模型的關鍵創(chuàng)新在于其多視角生成能力和稀疏記憶機制。通過同時處理來自頭部相機和雙臂腕部相機的三路視角輸入,GE-Base能夠保持空間一致性并捕捉完整的操控場景。稀疏記憶機制通過隨機采樣歷史幀來增強長時序推理能力,使模型能夠在保持時序連貫性的同時處理長達數分鐘的操控任務。
訓練采用兩階段策略:首先在3-30Hz的多分辨率采樣下進行時序適應訓練(GE-Base-MR),使模型對不同運動速度具有魯棒性;隨后在5Hz固定采樣率下進行策略對齊微調(GE-Base-LF),與下游動作建模的時序抽象保持一致。整個訓練基于AgiBot-World-Beta數據集的約3000小時、超100萬條真機數據,使用32塊A100 GPU訓練約10天完成。
GE-Act:平行流匹配動作模型
GE-Act作為即插即用的動作模塊,通過160M參數的輕量級架構將GE-Base的視覺潛在表征轉換為可執(zhí)行的機器人控制指令。其設計巧妙地與GE-Base的視覺主干平行設計,采用與GE-Base相同網絡深度的DiT塊但使用更小的隱層維度以提高效率。通過交叉注意力機制,動作路徑能夠充分利用視覺特征中的語義信息,確保生成的動作與任務指令保持一致。
GE-Act的訓練分為三個階段:動作預訓練階段將視覺表征投射到動作策略空間;任務特定視頻適應階段更新視覺生成組件以適應特定任務;面向特定任務的動作微調完整模型以捕捉細粒度控制動態(tài)。特別值得注意的是其異步推理模式:視頻DiT以5Hz運行進行單步去噪,而動作模型以30Hz運行進行5步去噪,這種"慢-快"雙層優(yōu)化使得系統(tǒng)能在機載RTX 4090 GPU上以200毫秒完成54步動作推理,實現實時控制。
GE-Sim:層次化動作條件仿真器
GE-Sim將GE-Base的生成能力擴展為動作條件的神經仿真器,通過層次化動作條件機制實現精確的視覺預測。該機制包含兩個關鍵組件:Pose2Image條件將7維末端執(zhí)行器姿態(tài)(位置、姿態(tài)、夾爪狀態(tài))投影到圖像空間,通過相機標定生成空間對齊的姿態(tài)圖像;運動向量計算連續(xù)姿態(tài)間的運動增量,編碼為運動令牌并通過交叉注意力注入到每個DiT塊中。
這種設計使GE-Sim能夠精確地將低層控制指令轉換為視覺預測,支持閉環(huán)策略評估。在實際應用中,策略模型生成的動作軌跡被GE-Sim轉換為未來的視覺狀態(tài),這些生成的視頻再反饋給策略模型產生下一步動作,形成完整的仿真閉環(huán)。通過分布式集群并行化,GE-Sim可實現每小時數千次的策略rollout評估,為大規(guī)模策略優(yōu)化提供了高效的評估平臺。更重要的是,GE-Sim還能作為數據引擎,通過在不同初始視覺環(huán)境下執(zhí)行相同動作軌跡來生成多樣化的訓練數據。
這三個組件緊密協(xié)作,構成了完整的視覺中心機器人學習平臺:GE-Base提供強大的視覺世界建模能力,GE-Act實現從視覺到動作的高效轉換,GE-Sim支撐大規(guī)模策略評估和數據生成,共同推動了具身智能的發(fā)展。
EWMBench: 世界模型評測套件
此外,為了評估面向具身任務的世界模型質量,團隊在GE核心組件之外開發(fā)了EWMBench評測套件。它從場景一致性、軌跡精度、運動動力學一致性,到語義對齊,全方位打分。多名專家的主觀評級與GE-Bench排名高度一致,驗證了其對機器人任務相關性評測的可靠性。在與Kling、Hailuo、OpenSora等先進模型的對比中,GE-Base在多項體現視覺建模質量的關鍵指標上均取得最優(yōu)成績,且與人類判斷高度一致。
開源計劃與未來展望
團隊將開源全部代碼、預訓練模型和評測工具。GE通過視覺中心的世界建模,為機器人學習開辟了新的技術路徑。GE的發(fā)布,標志著機器人從被動執(zhí)行向主動‘想象—驗證—行動’的轉變。未來,將擴展更多傳感器模態(tài),支持全身移動與人機協(xié)作,持續(xù)推動智能制造與服務機器人的落地應用。