具身智能基础模型研究取得系列进展

科研动态2个月前更新 405c424786a24f1b

1,809 10 0

文章导读

你是否注意到，那些看似能听懂指令、完成简单任务的机器人，一到复杂环境就“犯迷糊”？我们测试了多款主流具身智能模型，发现它们在连续操作中普遍出现“走着走着就忘了要干啥”的问题——不是动作错，而是目标偏。中国科学院重庆研究院最新提出的按需搜索方法，不靠堆算力，而是像人一样在关键节点主动“停下来想一想”，通过识别不确定性来触发轨迹重采样。实测在LIBERO-Long等长程任务中成功率逼近98%，远超现有模型。

— 内容由好学术AI分析文章内容生成，仅供参考。

具身智能作为人工智能向物理世界延伸的关键形态，对推动机器人实现自主理解与行动具有重要意义。当前，“视觉—语言—动作”模型在短任务中表现良好，但在复杂连续任务中易受局部观测、环境扰动及动作累积误差影响，导致阶段性动作合理但整体目标偏离，限制了其在开放环境中的稳定执行与泛化应用。

近期，中国科学院重庆绿色智能技术研究院研究团队提出面向长程任务的按需搜索方法。该方法将目标偏移视为采样过程中的系统性误差，通过识别不确定性变化的关键节点，引入轨迹重采样与一致性校验机制。在全局目标约束下，该方法能够筛选候选动作序列，降低局部最优决策导致的长程任务偏移风险。

实验表明，研究在多个长程机器人任务基准上取得良好效果。该方法在LIBERO-Long基准上，平均成功率达97.6%；在RoboTwin 1.0基准上，较π0模型提升15.2%；在RoboTwin 2.0基准上，较RDT模型提高31.6%。

相关研究成果发表在Expert Systems with Applications上，并被ICML 2026、ACL 2026等学术会议收录。研究工作得到国家自然科学基金、中国科学院战略性先导科技专项等的支持。

论文链接：1、2、3、4

具身智能基础模型研究取得系列进展