中国农业大学信电学院智能与系统安全实验室在人工智能安全领域研究取得重要进展

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
热门国际学术会议推荐 | 出版检索稳定,快至7天录用
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
文章导读
还在为AI模型中的隐藏后门攻击而焦虑?中国农业大学刚刚在顶级人工智能会议AAAI-2026上提出了革命性解决方案!面对现有防御技术难以平衡安全性与性能的困境,这项突破性研究仅需少量干净数据,就能精准识别中毒样本,将攻击成功率降至新低。想知道他们如何通过动态知识蒸馏与定向映射技术,为AI系统筑起坚固防线?这篇被国际顶会收录的论文正在重新定义人工智能安全标准。
— 内容由好学术AI分析文章内容生成,仅供参考。

近日,信息与电气工程学院智能与系统安全实验室研究论文《基于方向映射和对抗蒸馏的后门防御方法》(BeDKD: Backdoor Defense Based on Directional Mapping Module and Adversarial Knowledge Distillation)被人工智能领域顶级会议AAAI-2026(The 40th Annual AAAI Conference on Artificial Intelligence,CCF-A类会议论文)接收为主会Poster论文。

中国农业大学信电学院智能与系统安全实验室在人工智能安全领域研究取得重要进展

BeDKD方法架构图

随着深度神经网络在自然语言处理任务中的广泛应用,后门攻击已成为威胁模型安全的重要隐患。攻击者将隐蔽的触发模式植入少量数据中制作中毒的训练集。当模型正常训练后即自动植入特定模式的后门,使模型在面对特定输入时输出攻击者制定的回答,严重威胁智能系统的可信部署。现有的后门防御依赖大量干净数据来削弱后门,但通常难以处理残留的触发器效应,导致攻击成功率(ASR)持续偏高。因此,在实现后门防御与保持模型性能之间取得令人满意的平衡仍然是一个重大挑战。为解决上述问题,我们提出了一种基于动态知识蒸馏与定向映射调制器的后门防御框架,该方法仅需少量干净数据即可高效检测部分中毒数据,并在保持模型原有性能的同时,显著降低后门攻击成功率。

该论文第一作者为信电学院-智能与系统安全实验室2024级博士研究生吴政娴,文娟副教授和彭万里副教授为论文的通讯作者,实验室薛一鸣教授参与指导。论文成果受到国家自然科学基金项目(No.62272463、No.62402117)的资助,本研究工作得到中国农业大学校级高性能计算平台支持。

代码链接:https://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/BeDKD

© 版权声明
2025年数据科学与智能系统国际会议(DSIS 2025)
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
热门国际学术会议推荐 | 多学科征稿、征稿主题广 | 免费主题匹配
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第三届机器学习与自动化国际学术会议(CONF-MLA 2025)
热门国际学术会议推荐 | 立即查看超全会议列表

3 条评论

  • 小熊猫奶茶
    小熊猫奶茶 游客

    这种后门防御如果在大模型上也能稳住就真的厉害了,想知道对复杂触发器效果如何?

    未知
    回复
  • 舞步云朵
    舞步云朵 读者

    听说是AAAI主会poster,作者团队背景靠谱,学校资源也到位,挺有说服力的。

    未知
    回复
  • 程序猿阿呆
    程序猿阿呆 读者

    这思路挺新颖的,只要少量干净数据就能降ASR很实用,期待代码用例。

    河内
    回复