交大溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
第十届计算机技术与机械电气工程国际学术论坛(ISCME 2025)暨2025年泰山学术论坛-鲁东大学微纳传感器及系统专题论坛
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
文章导读
你是否厌倦了自动驾驶泊车时“听不懂指令”“找不到目标”的尴尬?交大溥渊团队最新研究成果或将彻底改变这一局面。他们在机器人顶级会议IROS上提出“AVP Scene Graph”——一种融合视觉与语言的层次化场景建图方法,让车辆不仅能看懂停车场的标志、出口、电梯厅,还能理解“停到B2车库电梯旁”这样自然的人类指令。通过多层语义建图与大模型驱动的导航,系统实现了更高灵活性、可读性与交互性的自动代客泊车。这项技术或将重新定义智能泊车的未来。
— 内容由好学术AI分析文章内容生成,仅供参考。

上海交通大学智能网联电动汽车创新中心团队在机器人国际会议IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)上发表题为“AVP Scene Graph: Hierarchical Visual Language Mapping and Navigation for Autonomous Valet Parking”的研究论文。文章主要探讨了一种服务于自动代客泊车(AVP)任务的视觉语言场景图,其能够有效提升自动代客泊车功能的灵活性。本文第一作者是溥渊未来技术学院2024级博士生牟相如,本文通讯作者是秦通副教授。

交大溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

研究背景

当前,自动代客泊车已成为自动驾驶的重要落地场景:驾驶员仅需通过手机指令,即可完成车辆的自动巡航泊车与自动召回。该功能的实现依赖于车端传感器在首次进入停车场时采集数据,并据此预先构建高精度泊车地图;当车辆再次驶入同一停车场,可直接调用既有地图并指定目标车位,随后启动自动代客泊车功能,实现从入口到车位的全程自主、安全、精准泊入。

研究现状

现有泊车地图存在三大痛点:

1)信息维度单一,仅有预先定义好的类别(车道线、箭头等),不能充分反映环境中的有用信息(标志牌、引导标志等);

2)可读性和扩展性较差,难以支持司机与系统的直观交互;

3)结构复杂,读图和更新效率低。

因此,亟需构建一种结构清晰、信息丰富、检索高效且便于人机交互的自动代客泊车地图,以填补当前技术缺口。

研究成果

为解决上述问题,本文构建了一种面向自动代客泊车任务的多层场景地图:首先利用视觉语言模型提取开放世界的语义,将其嵌入到矢量地图的节点中,再通过自下而上的特征融合将地图进行场景抽象,最终形成结构清晰、信息丰富的多层场景地图。

与此同时,本文提出一种自上而下的导航方法:先利用大模型实现人机交互,从人类指令中获取导航目标;再借助图结构的高效检索自上而下定位目标;最后由路径规划算法生成最优路径,实现自动代客泊车。

交大溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

方法框架图

如下图所示,传统地图语义有限、人机交互受限;而本文方法能够从人类指令“帮我导航到地库出口”或“把车停到B2车库的电梯厅旁边”中提取导航目标,按人类预期实现灵活、准确的自动代客泊车。

交大溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

作者信息

交大溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

牟相如

上海交通大学溥渊未来技术学院2024级博士研究生。研究方向:自动泊车构图、端到端自动驾驶。

交大溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

陈丰毅

上海交通大学溥渊未来技术学院2024级博士研究生。研究方向:机器人模仿学习、强化学习。

交大溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

陈思源

上海交通大学自动化与感知学院2023级硕士研究生。研究方向:自动驾驶规划控制,V2X系统。

交大溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

秦通

上海交通大学溥渊未来技术学院副教授。博士毕业于香港科技大学电子及计算机工程系,曾任职华为车BU。秦通被评选为华为公司首届“天才少年”。他在担任华为车BU感知SLAM技术专家期间,参与研发华为ADS智能驾驶系统,贡献了业界领先的智能驾驶方案,并在多款车型上实现了规模化商用。近年来以第一/通讯作者身份在TRO、JFR、RAL、ICRA等机器人领域顶级期刊和会议上发表高质量论文十余篇。曾获得IROS2018最佳学生论文奖和TRO最佳论文提名奖。研究方向:智能驾驶感知、构图、定位;端到端AI大模型;移动机器人SLAM。

作者: 上海交通大学智能网联电动汽车创新中心 供稿单位: 溥渊未来技术学院

© 版权声明
第九届电气、机械与计算机工程国际学术会议(ICEMCE 2025)
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第四届能源与动力工程国际学术会议(EPE 2025)

暂无评论

none
暂无评论...