哈工大赵悦教授团队在CLIP细粒度对齐研究领域取得重要进展

科研动态2个月前更新 15e340a55ff32c5a

1,693 8 0

文章导读

你还在用CLIP做图文检索或视觉问答吗？是不是总觉得它“认得出猫，却分不清猫在沙发上还是猫在抓沙发”？大多数人都忽略了CLIP细粒度对齐的致命短板——它只能做粗粒度语义匹配，而真正决定AI理解深度的结构关联学习能力几乎为零。哈工大赵悦团队的最新研究，在不增加模型参数的前提下，让细粒度对齐精度在权威基准上飙升11.2%。但这项突破的核心不是堆算力，而是一个反直觉的多模态场景图对齐机制。

— 内容由好学术AI分析文章内容生成，仅供参考。

（商艳凯刘玉菡/文航天学院/图）近日，我校航天学院赵悦教授团队在CLIP细粒度对齐技术研究领域取得重要进展。研究成果以《MSG-CLIP：基于多模态场景图对齐增强 CLIP 的细粒度结构关联学习能力》（MSG-CLIP: Enhancing CLIP’s ability to learn fine-grained structuralassociations through multi-modal scene graph alignment）为题发表于模式识别与人工智能领域国际学术期刊《模式识别》（Pattern Recognition）。该研究成果为大幅提升跨模态人工智能模型的图文精准理解能力提供了关键技术支撑。

CLIP作为跨模态预训练模型的核心代表，凭借强大的图文语义对齐能力，已成为图文检索、视觉问答、图文生成等人工智能核心领域的关键基础技术。而细粒度对齐作为CLIP精准“认识”图文含义的核心环节，长期存在对齐精度低、结构学习能力不足等痛点，成为制约CLIP在高端视觉理解场景落地的关键瓶颈。相较于传统CLIP模型仅能实现粗粒度语义匹配，细粒度对齐技术的突破是实现AI对图文深层含义精准解读的核心前提。

赵悦教授团队针对相关技术痛点开展了系统性研究，创新提出MSG-CLIP框架，通过多模态场景图对齐机制，实现实体级模态对齐与三元组级关系对齐的双重细粒度精准匹配，从根源上解决了传统CLIP在细粒度对齐中结构信息缺失、匹配误差较大等核心缺陷。实验结果表明，MSG-CLIP在不增加模型参数量的前提下，于权威基准数据集VG-Attribution较基线模型取得11.2%的大幅度提升、于权威基准数据集VG-Relation上性能也有2.5%的可观提升。

哈工大赵悦教授团队在CLIP细粒度对齐研究领域取得重要进展