智元机器人公司发布首个机器人4D世界模型

科研动态1年前更新 0f6ec722422f273c

1,856 0 0

文章导读

机器人动作规划为何总在动态环境中卡壳？传统方法因视角固定而束手无策，智元机器人突破性推出EnerVerse——首个4D世界模型，基于自回归扩散技术生成未来具身空间，精准引导动作规划。创新自由锚定视角（FAV）动态调整观测角度，解决狭窄遮挡环境局限，通过光线投射确保时空一致性，实现“上帝视角”预测4D未来。实验验证：单视角设定效果最优，三视角进一步增强；LIBERO仿真和AgiBot World真实场景中，短程与长程任务视频生成质量卓越，任务成功率大幅提升。揭秘这一技术如何颠覆机器人智能，高效应对复杂挑战！

— 内容由好学术AI分析文章内容生成，仅供参考。

智元机器人公司发布首个机器人4D世界模型

1月3日，智元机器人具身算法团队正式推出首个4D世界模型EnerVerse，以自回归扩散模型为核心，通过生成未来具身空间来引导动作规划。

在机器人技术领域中，动作规划始终是一项充满挑战的任务。现有的机器人动作规划方法，往往因为缺乏对动态操作空间的深入理解和长序任务的记忆处理能力不足而表现不佳，而已有的基于2D视频生成的world model又难以准确表达复杂的3D关系。为了解决这一问题，研究团队提出了机器人领域首个4D世界模型EnerVerse，将生成式空间智能与机器人动作预测相结合，使机器人能够更高效、更准确地完成任务。EnerVerse引入了自由锚定视角（FAV）来表征4D时空，允许机器人动态调整其视角，克服了固定多视角在狭窄或遮挡环境中的局限性。FAV通过光线投射原理和视线方向图作为视角控制条件，时间维+多视角视频生成，确保了生成视频的几何一致性，“上帝视角”任意观测、预测4D未来，从而提升了机器人在复杂环境中的动作规划能力，大幅增加任务成功率。在实验中，EnerVerse在单视角设定下取得平均最优效果，而在三视角设定下效果得到进一步增强。此外，EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证，在短程与长程任务视频生成中，EnerVerse均展现出卓越的性能。