多媒体可信感知与高效计算教育部重点实验室弱监督目标定位工作被国际顶级期刊IEEE TPAMI接收

科研动态8个月前更新 厦门大学
1,308 0 0
查找参加最新学术会议,发表EI、SCI论文,上学术会议云
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

近日,厦门大学多媒体可信感知与高效计算教育部重点实验室在弱监督目标定位领域取得重要进展。由陈志威博士、曹刘娟教授(通讯作者)、张声传副教授、纪荣嵘教授与腾讯优图沈云航博士合作完成的论文“CLIP-Driven Transformer for Weakly Supervised Object Localization”被国际学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI)正式录用。IEEE TPAMI是计算机科学和人工智能领域公认的顶级期刊之一,也是中国计算机学会推荐的A类期刊,2024年影响因子达20.8,在国际学术界享有广泛影响力。

 

多媒体可信感知与高效计算教育部重点实验室弱监督目标定位工作被国际顶级期刊IEEE TPAMI接收

算法框架示意图与可视化结果


弱监督目标定位旨在实现仅给定图像级标签的前提下学习一个目标定位器。针对目前基于Transformer架构的方法面临的语义偏移问题,本研究深入剖析了语义偏移的根本原因,将其归因于基类噪声和新类噪声。基于此,本研究设计了一种新型语义核,有效消除前期工作中不同模块间语义信息交互的鸿沟,显著提升了模型的语义一致性。此外,本研究基于CLIP大模型充分挖掘图像级标签的语义价值,使模型能够在复杂场景中精准感知特定目标,显著提高了目标定位的泛化能力。大量的实验表明,本研究在CUB-200-2011ILSVRC数据集中表现优于最先进的弱监督定位方法,同时在医学图像和工业缺陷检测数据上的表现也进一步证明了其鲁棒性和广泛的应用潜力。

 

本研究在弱监督目标定位方向取得了重要突破,为Transformer在计算机视觉任务中的应用提供了新的思路和技术支撑,体现了团队在深度学习、计算机视觉与多模态语义理解领域的前沿研究实力和国际学术影响力。


(多媒体可信感知与高效计算教育部重点实验室)


© 版权声明
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

暂无评论

none
暂无评论...