中国农业大学信电学院智能与系统安全实验室在人工智能安全领域研究取得重要进展
文章导读
还在为AI模型中的隐藏后门攻击而焦虑?中国农业大学刚刚在顶级人工智能会议AAAI-2026上提出了革命性解决方案!面对现有防御技术难以平衡安全性与性能的困境,这项突破性研究仅需少量干净数据,就能精准识别中毒样本,将攻击成功率降至新低。想知道他们如何通过动态知识蒸馏与定向映射技术,为AI系统筑起坚固防线?这篇被国际顶会收录的论文正在重新定义人工智能安全标准。
— 内容由好学术AI分析文章内容生成,仅供参考。
近日,信息与电气工程学院智能与系统安全实验室研究论文《基于方向映射和对抗蒸馏的后门防御方法》(BeDKD: Backdoor Defense Based on Directional Mapping Module and Adversarial Knowledge Distillation)被人工智能领域顶级会议AAAI-2026(The 40th Annual AAAI Conference on Artificial Intelligence,CCF-A类会议论文)接收为主会Poster论文。

BeDKD方法架构图
随着深度神经网络在自然语言处理任务中的广泛应用,后门攻击已成为威胁模型安全的重要隐患。攻击者将隐蔽的触发模式植入少量数据中制作中毒的训练集。当模型正常训练后即自动植入特定模式的后门,使模型在面对特定输入时输出攻击者制定的回答,严重威胁智能系统的可信部署。现有的后门防御依赖大量干净数据来削弱后门,但通常难以处理残留的触发器效应,导致攻击成功率(ASR)持续偏高。因此,在实现后门防御与保持模型性能之间取得令人满意的平衡仍然是一个重大挑战。为解决上述问题,我们提出了一种基于动态知识蒸馏与定向映射调制器的后门防御框架,该方法仅需少量干净数据即可高效检测部分中毒数据,并在保持模型原有性能的同时,显著降低后门攻击成功率。
该论文第一作者为信电学院-智能与系统安全实验室2024级博士研究生吴政娴,文娟副教授和彭万里副教授为论文的通讯作者,实验室薛一鸣教授参与指导。论文成果受到国家自然科学基金项目(No.62272463、No.62402117)的资助,本研究工作得到中国农业大学校级高性能计算平台支持。
代码链接:https://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/BeDKD
© 版权声明
本文由分享者转载或发布,内容仅供学习和交流,版权归原文作者所有。如有侵权,请留言联系更正或删除。

















这种后门防御如果在大模型上也能稳住就真的厉害了,想知道对复杂触发器效果如何?
听说是AAAI主会poster,作者团队背景靠谱,学校资源也到位,挺有说服力的。
这思路挺新颖的,只要少量干净数据就能降ASR很实用,期待代码用例。