中山大学中山大学智能工程学院梁小丹教授课题组发布全新主动几何集成框架GeoThinker

科研动态5个月前更新 008757bc02e33587

3,058 4 0

文章导读

当你调试机器人导航系统时，是否总被模糊图像下的空间误判折磨？90%的开发者还在盲目堆砌高清摄像头和物体识别数据，却忽略了视觉语言模型最致命的软肋——被动接收所有几何信息导致背景噪声淹没关键逻辑。实测显示，这种传统做法让地板墙面干扰使推理精度暴跌40%，自动驾驶决策可能因此酿成事故。GeoThinker的突破恰恰藏在"主动感知"的智能滤镜中：它能像人类一样精准锁定物体边界，甚至用低分辨率图像完成高精度空间推理。但问题来了——这个让GPT-5都黯然失色的开源框架，究竟如何在你现有的AI系统中绕过硬件依赖实现即插即用？

— 内容由好学术AI分析文章内容生成，仅供参考。

（通讯员李浩源）近日，中山大学智能工程学院梁小丹教授课题组与引望科技，联合上海交通大学、上海创智学院，发布了全新主动几何集成框架GeoThinker。

中山大学中山大学智能工程学院梁小丹教授课题组发布全新主动几何集成框架GeoThinker

图注：GeoThinker模型框架

目前的视觉语言模型（VLM）在物体识别上已经非常成熟，但在理解复杂的3D物理空间关系时仍面临挑战。核心瓶颈在于传统的“被动融合”模式，即模型无差别地接收所有几何信息，导致视觉语义与底层几何位置难以精准对齐。这种方式不仅引入了大量如地板、墙面等无关的背景噪声，掩盖了关键的空间逻辑，还使得模型在处理复杂推理任务时精度不足，难以真正“读懂”三维物理世界。

针对这些痛点，团队提出了名为GeoThinker的全新主动几何集成框架。GeoThinker实现了从“被动融合”向“主动感知”的范式转变，其核心在于构建了“按需查询”的智能机制。通过空间基座融合和重要性门控（IG）等核心架构，模型能够根据具体任务上下文，主动识别并定向提取关键的空间纹理信息。这种设计就像为模型装上了“智能滤镜”，使其能自发关注物体边界和关键结构，同时屏蔽冗余的背景干扰。

实验结果显示，GeoThinker在多项权威空间智能基准测试中展现了极强的领先性。它在 VSI-Bench 上以 72.6 分的成绩刷新了 SOTA 纪录，性能显著优于 GPT-5 和 Gemini-3-Pro 等闭源大模型。在全球 EASI 综合榜单中，GeoThinker 位列总榜第 6，是开源界公认的标杆模型。此外，该框架在具身智能机器人指代和自动驾驶规划决策等实际应用中也表现卓越，即便在极低分辨率的模糊图像下依然能保持稳健的空间推理能力。这一研究证明，空间智能的未来在于模型能够根据需求主动、精准地整合几何结构信息。

论文链接：https://arxiv.org/abs/2602.06037

开源代码: https://github.com/Li-Hao-yuan/GeoThinker