国产极品美女高潮无套,国产95在线 | 亚洲,国产精品高潮露脸在线观看

智元機(jī)器人發(fā)布行業(yè)首個機(jī)器人世界模型開源平臺——Genie Envisioner

http://007sbw.cn 2025-08-14 10:12 來源：智元機(jī)器人

智元機(jī)器人重磅推出面向真實世界機(jī)器人操控的統(tǒng)一世界模型平臺 --- Genie Envisioner（GE）。不同于傳統(tǒng)“數(shù)據(jù)—訓(xùn)練—評估”割裂的流水線模式，GE將未來幀預(yù)測、策略學(xué)習(xí)與仿真評估首次整合進(jìn)以視頻生成為核心的閉環(huán)架構(gòu)，使機(jī)器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執(zhí)行?；?000小時真機(jī)數(shù)據(jù)，GE-Act不僅在跨平臺泛化和長時序任務(wù)執(zhí)行上顯著超越現(xiàn)有SOTA，更為具身智能打開了從視覺理解到動作執(zhí)行的全新技術(shù)路徑。

🔹 Project pagehttps://genie-envisioner.github.io/

🔹 Arxivhttps://arxiv.org/abs/2508.05635

🔹Githubhttps://github.com/AgibotTech/Genie-Envisioner

當(dāng)前機(jī)器人學(xué)習(xí)系統(tǒng)普遍采用分階段開發(fā)模式——數(shù)據(jù)收集、模型訓(xùn)練、策略評估，每個環(huán)節(jié)相互獨立，并需要專門的基礎(chǔ)設(shè)施和任務(wù)特定調(diào)優(yōu)。這種碎片化架構(gòu)增加了開發(fā)復(fù)雜度，延長了迭代周期，限制了系統(tǒng)的可擴(kuò)展性。GE平臺通過構(gòu)建統(tǒng)一的視頻生成世界模型，將這些分散的環(huán)節(jié)集成到一個閉環(huán)系統(tǒng)中?；诩s3000小時的真實機(jī)器人操控視頻數(shù)據(jù)，GE建立了從語言指令到視覺空間的直接映射，保留了機(jī)器人與環(huán)境交互的完整時空信息。

01/核心創(chuàng)新：視覺中心的世界建模范式

GE的核心突破在于構(gòu)建了基于世界模型的以視覺中心的建模范式。不同于主流VLA（Vision-Language-Action）方法依賴視覺-語言模型將視覺輸入映射到語言空間進(jìn)行間接建模，GE直接在視覺空間中建模機(jī)器人與環(huán)境的交互動態(tài)。這種方法完整保留了操控過程中的空間結(jié)構(gòu)和時序演化信息，實現(xiàn)了對機(jī)器人-環(huán)境動態(tài)更精確、更直接的建模。這一視覺中心的建模范式帶來了兩個關(guān)鍵優(yōu)勢：

高效的跨本體泛化能力

基于強(qiáng)大的視覺空間預(yù)訓(xùn)練，GE-Act僅需極少量數(shù)據(jù)即可實現(xiàn)跨平臺遷移。在Agilex Cobot Magic和Dual Franka等全新機(jī)器人平臺上，GE-Act僅使用1小時（約250個演示）的遙操作數(shù)據(jù)就實現(xiàn)了高質(zhì)量的任務(wù)執(zhí)行。相比之下，即使是在多本體數(shù)據(jù)上有大規(guī)模預(yù)訓(xùn)練的π0和GR00T模型，在相同數(shù)據(jù)量下的表現(xiàn)也不如GE-Act。

這種高效泛化源于GE-Base在視覺空間中學(xué)習(xí)到的通用操控表征。通過直接建模視覺動態(tài)而非依賴語言抽象，模型能夠捕捉到跨平臺共享的底層物理規(guī)律和操控模式，從而實現(xiàn)快速適配。

長時序任務(wù)的精確執(zhí)行能力

更重要的是，視覺中心建模賦予了GE強(qiáng)大的未來時空預(yù)測能力。通過在視覺空間中顯式建模時序演化，GE-Act能夠規(guī)劃和執(zhí)行需要長時序推理的復(fù)雜任務(wù)。

在折疊紙盒等超長步驟任務(wù)中，GE-Act展現(xiàn)出了遠(yuǎn)超現(xiàn)有SOTA方法的性能。以紙盒折疊為例，這項任務(wù)需要精確執(zhí)行超過10個連續(xù)子步驟，每個步驟都依賴于前序動作的準(zhǔn)確完成。GE-Act達(dá)到了76%的成功率，而專門針對柔性物體操控優(yōu)化的π0僅為48%，UniVLA和GR00T則完全無法完成（0%成功率）。

這種長時序執(zhí)行能力的提升不僅源于GE的視覺世界建模，同時也得益于我們創(chuàng)新設(shè)計的sparse memory模塊。通過這樣的模塊設(shè)計，能夠幫助機(jī)器人選擇性地保留關(guān)鍵歷史信息，從而在長時序任務(wù)中保持精確的上下文理解。通過預(yù)測未來的視覺狀態(tài)，GE-Act能夠"預(yù)見"動作的長期后果，從而生成更連貫、更穩(wěn)定的操控序列。相比之下，基于語言空間的方法在長時序任務(wù)中容易出現(xiàn)誤差累積和語義漂移。

02/技術(shù)架構(gòu)：三大核心組件

基于視覺中心建模理念，GE平臺包含三個緊密集成的組件：

GE-Base：多視角視頻世界基礎(chǔ)模型

GE-Base是整個平臺的核心基礎(chǔ)，采用自回歸視頻生成框架，將輸出分割為離散的視頻塊（video chunks），每塊包含N幀。模型的關(guān)鍵創(chuàng)新在于其多視角生成能力和稀疏記憶機(jī)制。通過同時處理來自頭部相機(jī)和雙臂腕部相機(jī)的三路視角輸入，GE-Base能夠保持空間一致性并捕捉完整的操控場景。稀疏記憶機(jī)制通過隨機(jī)采樣歷史幀來增強(qiáng)長時序推理能力，使模型能夠在保持時序連貫性的同時處理長達(dá)數(shù)分鐘的操控任務(wù)。

訓(xùn)練采用兩階段策略：首先在3-30Hz的多分辨率采樣下進(jìn)行時序適應(yīng)訓(xùn)練（GE-Base-MR），使模型對不同運動速度具有魯棒性；隨后在5Hz固定采樣率下進(jìn)行策略對齊微調(diào)（GE-Base-LF），與下游動作建模的時序抽象保持一致。整個訓(xùn)練基于AgiBot-World-Beta數(shù)據(jù)集的約3000小時、超100萬條真機(jī)數(shù)據(jù)，使用32塊A100 GPU訓(xùn)練約10天完成。

GE-Act：平行流匹配動作模型

GE-Act作為即插即用的動作模塊，通過160M參數(shù)的輕量級架構(gòu)將GE-Base的視覺潛在表征轉(zhuǎn)換為可執(zhí)行的機(jī)器人控制指令。其設(shè)計巧妙地與GE-Base的視覺主干平行設(shè)計，采用與GE-Base相同網(wǎng)絡(luò)深度的DiT塊但使用更小的隱層維度以提高效率。通過交叉注意力機(jī)制，動作路徑能夠充分利用視覺特征中的語義信息，確保生成的動作與任務(wù)指令保持一致。

GE-Act的訓(xùn)練分為三個階段：動作預(yù)訓(xùn)練階段將視覺表征投射到動作策略空間；任務(wù)特定視頻適應(yīng)階段更新視覺生成組件以適應(yīng)特定任務(wù)；面向特定任務(wù)的動作微調(diào)完整模型以捕捉細(xì)粒度控制動態(tài)。特別值得注意的是其異步推理模式：視頻DiT以5Hz運行進(jìn)行單步去噪，而動作模型以30Hz運行進(jìn)行5步去噪，這種"慢-快"雙層優(yōu)化使得系統(tǒng)能在機(jī)載RTX 4090 GPU上以200毫秒完成54步動作推理，實現(xiàn)實時控制。

GE-Sim：層次化動作條件仿真器

GE-Sim將GE-Base的生成能力擴(kuò)展為動作條件的神經(jīng)仿真器，通過層次化動作條件機(jī)制實現(xiàn)精確的視覺預(yù)測。該機(jī)制包含兩個關(guān)鍵組件：Pose2Image條件將7維末端執(zhí)行器姿態(tài)（位置、姿態(tài)、夾爪狀態(tài)）投影到圖像空間，通過相機(jī)標(biāo)定生成空間對齊的姿態(tài)圖像；運動向量計算連續(xù)姿態(tài)間的運動增量，編碼為運動令牌并通過交叉注意力注入到每個DiT塊中。

這種設(shè)計使GE-Sim能夠精確地將低層控制指令轉(zhuǎn)換為視覺預(yù)測，支持閉環(huán)策略評估。在實際應(yīng)用中，策略模型生成的動作軌跡被GE-Sim轉(zhuǎn)換為未來的視覺狀態(tài)，這些生成的視頻再反饋給策略模型產(chǎn)生下一步動作，形成完整的仿真閉環(huán)。通過分布式集群并行化，GE-Sim可實現(xiàn)每小時數(shù)千次的策略rollout評估，為大規(guī)模策略優(yōu)化提供了高效的評估平臺。更重要的是，GE-Sim還能作為數(shù)據(jù)引擎，通過在不同初始視覺環(huán)境下執(zhí)行相同動作軌跡來生成多樣化的訓(xùn)練數(shù)據(jù)。

這三個組件緊密協(xié)作，構(gòu)成了完整的視覺中心機(jī)器人學(xué)習(xí)平臺：GE-Base提供強(qiáng)大的視覺世界建模能力，GE-Act實現(xiàn)從視覺到動作的高效轉(zhuǎn)換，GE-Sim支撐大規(guī)模策略評估和數(shù)據(jù)生成，共同推動了具身智能的發(fā)展。

EWMBench: 世界模型評測套件

此外，為了評估面向具身任務(wù)的世界模型質(zhì)量，團(tuán)隊在GE核心組件之外開發(fā)了EWMBench評測套件。它從場景一致性、軌跡精度、運動動力學(xué)一致性，到語義對齊，全方位打分。多名專家的主觀評級與GE-Bench排名高度一致，驗證了其對機(jī)器人任務(wù)相關(guān)性評測的可靠性。在與Kling、Hailuo、OpenSora等先進(jìn)模型的對比中，GE-Base在多項體現(xiàn)視覺建模質(zhì)量的關(guān)鍵指標(biāo)上均取得最優(yōu)成績，且與人類判斷高度一致。

開源計劃與未來展望

團(tuán)隊將開源全部代碼、預(yù)訓(xùn)練模型和評測工具。GE通過視覺中心的世界建模，為機(jī)器人學(xué)習(xí)開辟了新的技術(shù)路徑。GE的發(fā)布，標(biāo)志著機(jī)器人從被動執(zhí)行向主動‘想象—驗證—行動’的轉(zhuǎn)變。未來，將擴(kuò)展更多傳感器模態(tài)，支持全身移動與人機(jī)協(xié)作，持續(xù)推動智能制造與服務(wù)機(jī)器人的落地應(yīng)用。

国产精品久久久久久久久软件,国产成人久久久精品二区三区,国产成人无码一区二区三区在线 ,大又大粗又爽又黄少妇毛片,国产精品成人aaaaa网站

智元機(jī)器人發(fā)布行業(yè)首個機(jī)器人世界模型開源平臺——Genie Envisioner

相關(guān)新聞

編輯精選

工控原創(chuàng)