哈工大赵悦教授团队在CLIP细粒度对齐研究领域取得重要进展

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
热门国际学术会议推荐 | 出版检索稳定,快至7天录用
2026年第五届网络、通信与信息技术国际会议(CNCIT 2026)
2026年智能机器人与控制技术国际会议(CIRCT 2026)
2026年传感器技术、自动化与智能制造国际会议(STAIM 2026
ACEEE 2026
文章导读
你还在用CLIP做图文检索或视觉问答吗?是不是总觉得它“认得出猫,却分不清猫在沙发上还是猫在抓沙发”?大多数人都忽略了CLIP细粒度对齐的致命短板——它只能做粗粒度语义匹配,而真正决定AI理解深度的结构关联学习能力几乎为零。哈工大赵悦团队的最新研究,在不增加模型参数的前提下,让细粒度对齐精度在权威基准上飙升11.2%。但这项突破的核心不是堆算力,而是一个反直觉的多模态场景图对齐机制。
— 内容由好学术AI分析文章内容生成,仅供参考。

(商艳凯 刘玉菡/文 航天学院/图)近日,我校航天学院赵悦教授团队在CLIP细粒度对齐技术研究领域取得重要进展。研究成果以《MSG-CLIP:基于多模态场景图对齐增强 CLIP 的细粒度结构关联学习能力》(MSG-CLIP: Enhancing CLIP’s ability to learn fine-grained structuralassociations through multi-modal scene graph alignment)为题发表于模式识别与人工智能领域国际学术期刊《模式识别》(Pattern Recognition)。该研究成果为大幅提升跨模态人工智能模型的图文精准理解能力提供了关键技术支撑。

CLIP作为跨模态预训练模型的核心代表,凭借强大的图文语义对齐能力,已成为图文检索、视觉问答、图文生成等人工智能核心领域的关键基础技术。而细粒度对齐作为CLIP精准“认识”图文含义的核心环节,长期存在对齐精度低、结构学习能力不足等痛点,成为制约CLIP在高端视觉理解场景落地的关键瓶颈。相较于传统CLIP模型仅能实现粗粒度语义匹配,细粒度对齐技术的突破是实现AI对图文深层含义精准解读的核心前提。

赵悦教授团队针对相关技术痛点开展了系统性研究,创新提出MSG-CLIP框架,通过多模态场景图对齐机制,实现实体级模态对齐与三元组级关系对齐的双重细粒度精准匹配,从根源上解决了传统CLIP在细粒度对齐中结构信息缺失、匹配误差较大等核心缺陷。实验结果表明,MSG-CLIP在不增加模型参数量的前提下,于权威基准数据集VG-Attribution较基线模型取得11.2%的大幅度提升、于权威基准数据集VG-Relation上性能也有2.5%的可观提升。

哈工大赵悦教授团队在CLIP细粒度对齐研究领域取得重要进展

 MSG-CLIP整体框架示意图

哈工大为论文第一署名单位,航天学院博士生吕笑天为论文第一作者,赵悦教授为论文通讯作者。该研究得到国家自然科学基金、黑龙江省人工智能重点研发计划等项目的支持。

论文链接:

https://www.sciencedirect.com/science/article/abs/pii/S0031320325014578?via%3Dihub=

© 版权声明
TKPaper-你的智能选刊助手
热门国际学术会议推荐 | 多学科征稿、征稿主题广 | 免费主题匹配
IOP-JPCS出版|2026年先进电子与自动化技术国际学术会议(AEAT 2026)
2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)
2026年智能机器人与控制技术国际会议(CIRCT 2026)
2026年传感器技术、自动化与智能制造国际会议(STAIM 2026)
BDAI 2026

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
热门国际学术会议推荐 | 立即查看超全会议列表

3 条评论

  • 糖果小公主
    糖果小公主 读者

    想问下这个场景图是人工标注还是模型自动抽的?

    上海上海市
    回复
  • 土鳖子
    土鳖子 读者

    细粒度对齐这块真难,图文里一个关系错了就全歪了。

    山东省潍坊市
    回复
  • 夜语孤灯
    夜语孤灯 读者

    这个11.2%提升挺实在的,至少不是空喊概念。

    湖北省恩施
    回复