从AI基础理论到实际应用,走近上海交通大学自然科学研究院2025年人工智能领域顶会顶刊成果

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
第十届计算机技术与机械电气工程国际学术论坛(ISCME 2025)暨2025年泰山学术论坛-鲁东大学微纳传感器及系统专题论坛
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)

从AI基础理论到实际应用,走近上海交通大学自然科学研究院2025年人工智能领域顶会顶刊成果

文章导读
你是否好奇,中国高校如何在AI最前沿持续突破?上海交大自然科学研究院2025年近20项顶会顶刊成果集中亮相,从Transformer训练动力学、神经坍缩理论到大模型推理机制,揭秘AI“黑箱”背后的底层逻辑。更有超图学习新框架、分子生成新算法、AI疫苗设计工具VenusVaccine等重磅应用落地。不止发论文,更在定义未来AI的边界——这里的研究,正在改写人工智能的基础与可能。
— 内容由好学术AI分析文章内容生成,仅供参考。

近日,上海交通大学自然科学研究院多支研究团队在人工智能领域的理论探索与方法创新方面取得系列重要突破,多项成果相继获国际顶级期刊与会议录用,包括Journal of Machine Learning Research(以下简称“JMLR”)、International Conference on Machine Learning(以下简称“ICML”)、Neural Information Processing Systems(以下简称“NeurIPS”)、International Conference on Learning Representations(以下简称“ICLR”)、Association for Computational Linguistics(以下简称“ACL”)、Neural Networks等。研究覆盖人工智能从基础理论到实际应用的关键方向,有力彰显了自然科学研究院青年科研人才在前沿领域的持续引领作用与创新能力。

2025年,研究院学者已在国际机器学习顶级期刊与会议上发表或录用论文近20篇,包括 JMLR 1篇、ICML 4篇(含1篇Spotlight)、NeurIPS 7篇(含1篇Spotlight、1篇Oral)、ICLR 1篇、ACL 1篇、Neural Networks 1篇等。成果涵盖深度学习理论、大模型推理、图与超图学习、鲁棒分类、分子模拟与生成、张量计算及AI疫苗设计等前沿方向,充分体现了自然科学研究院在人工智能“基础—算法—应用”全链条布局上的扎实进展与综合实力。以下为部分代表性研究成果节选。

一、AI基础理论(按团队负责人姓氏首字母排列)

1、罗涛团队

罗涛团队基于梯度流框架刻画线性化 Transformer 的训练动力学,提出不同模块“两阶段”的动力学行为:第一阶段,随机初始化带来的非对称扰动维持非退化梯度并促使参数凝聚、朝目标方向对齐;第二阶段,先前静止的 K–Q 注意力矩阵开始主导,推动归一化矩阵发生渐近秩塌缩。该框架在Transformer架构上建立了方向收敛结果与秩塌缩的联系。该成果被接收为NeurIPS 2025的Oral,学生陈政安为一作,罗涛是通讯作者。

在另一项关于齐次(Homogeneous)神经网络的理论研究中,张耀宇、罗涛团队取得了新突破。团队首次证明了 KKT 点嵌入原则:通过神经元分裂,小规模网络最大间隔(Maximum-Margin)问题的 KKT 点可以嵌入到更大网络的 KKT 点中。研究不仅在两层和深层网络中证明了这一结论,还进一步提出并证明了梯度流动力学轨道的嵌入原则,揭示了不同宽度网络在解空间和训练动力学上的内在联系。该成果为深入理解凝聚现象提供了新的理论视角,相关论文被 NeurIPS 2025接收为Poster,第一作者是张佳函,通讯作者是张耀宇和罗涛。

另一方面,在AI4Math领域,罗涛团队针对数学自动形式化平行语料稀缺的挑战,提出了一个名为ATLAS的数据生成框架 。该框架通过“数据提升” 、“数据合成” 和“数据增强” 三个阶段,从数学知识库Mathlib中提取概念 ,高效合成了包含11.7万条定理陈述的大规模、高质量数据集 。基于此数据集训练的ATLAS翻译器在所有基准测试中均取得了当前最优性能 。该成果被接收为NeurIPS 2025的Poster,学生刘晓洋为第一作者,罗涛为通讯作者。

2、闵含城团队

闵含城团队在深度学习理论领域取得系列重要进展。在鲁棒学习方向,研究聚焦于各向同性高斯混合数据模型下的鲁棒分类器构建,证明了无需额外防御机制即可训练出具备可证明鲁棒性的分类器。团队首先确定了在保持高预测准确率前提下,任意分类器可抵御的最大 l2 范数攻击,并证明存在能够实现该鲁棒性的最优分类器。进一步研究表明,在不依赖对抗训练样本的条件下,通过梯度流训练的多项式 ReLU 网络即可近似该最优鲁棒分类器。相关成果已发表于 ICML 2025,为理解和提升深度网络的对抗鲁棒性提供了新的理论依据。

另一项重要进展体现在神经坍缩(Neural Collapse)研究方面。团队针对单隐藏层 ReLU 网络,严格证明了在特定分类任务下,梯度流优化过程会自然涌现神经坍缩现象。这一成果突破了以往将隐藏层特征视为无约束变量的研究范式,揭示了数据结构与非线性激活函数对神经坍缩的关键影响,并阐明了训练动力学中的隐式偏置在推动神经坍缩形成中的重要作用。相关论文已发表于 NeurIPS 2025,为深入理解深度神经网络训练机制提供了新的理论支撑。

3、许志钦团队

许志钦团队通过锚函数研究初始化对Transformer推理能力的影响,发现在小初始化下的凝聚区域,模型会更偏向于推理。在今年的工作中,团队进一步发现由于推理数据存在更多结构,在小初始化,网络的嵌入表示也更容易学习到相应的结构,使模型更快地拟合推理数据。这些结果在大语言模型中也得到验证,对大语言模型推理能力的理解作出重要的贡献。该成果被ICML 2025接收并获评 Spotlight,学生姚俊杰为本文一作,许志钦及学生张众望为共同通讯作者。

团队进一步将锚函数研究Transformer的思想推广,揭示了 Mamba 与 Transformer 模型的根本性区别,尤其体现在 Mamba处理对称模式时展现的困难,并通过进一步的实验定位了造成困难的结构原因,给予了未来基础模型开发更深刻的认识和启发。会议的领域主席评价:“所设计的合成任务虽简洁,但能有效测试模型在组合问题与对称问题上的解决能力;而提出的残差路径 / 门控机制等改进方案虽简单,却具有实际应用价值。”该成果被接收为NeurIPS 2025的Spotlight,学生陈天一和林鹏潇为共同一作,许志钦是通讯作者。

4、张耀宇团队

张耀宇团队基于局部线性恢复的弱意义,提出了一种适用于一般模型的目标恢复所需最低样本量的估计方法,称为“乐观估计”。论文证明了在使用大规模神经网络拟合目标函数时,其乐观样本量不超过能够表示该目标的最小网络的参数量。研究还进一步表明,神经网络宽度增加仍能保持样本效率,而增加不必要的连接则会降低样本效率。论文深化了对凝聚现象的理论认识:通过提出“模型秩”的概念有效度量了参数点的凝聚程度,并将之推广到了一般的非线性参数化模型中。该成果已于今年在JMLR上发表,张耀宇为第一兼通讯作者。

二、AI算法(按团队负责人姓氏首字母排列)

1、王宇光团队

王宇光团队在超图学习方向取得重要成果。团队提出了一种受相互作用粒子系统启发的新型超图消息传递框架,将超边视为诱发节点共享动力学的“场”,并通过引入吸引力、排斥力及 Allen-Cahn 强制项,使不同类别与特征的粒子能够实现类别依赖的平衡,从而实现基于粒子驱动的高效消息传递。研究进一步利用一阶与二阶粒子系统方程建模动力学过程,有效缓解了过度平滑与异质性问题,并在确定性传递中引入随机成分以刻画交互不确定性。理论分析表明,该方法可在传播过程中保持超图 Dirichlet 能量的正下界,从而支持更深层的消息传递;实证结果也显示该模型在多类真实数据集上均取得优异表现。相关成果已发表于 NeurIPS 2025,为超图学习与复杂关系建模提供了全新思路。

2、吴昊团队

吴昊团队在分子模拟与生成模型领域取得重要突破。针对扩散模型在分子平衡态建模中存在的样本分布与能量函数不一致问题,该团队提出了一种基于Fokker–Planck正则化的扩散模型,显著提升了采样分布与能量函数之间的一致性。基于此框架,团队进一步构建了面向小分子的可迁移玻尔兹曼生成器。实验证明,该方法不仅能实现粗粒化分子系统的高效采样,还可同步建立精确的能量模型。相关成果已发表于NeurIPS 2025,吴昊为共同通讯作者。

3、张小群团队

张小群团队在张量计算与优化算法研究中取得新进展。团队针对低多重线性秩张量补全这一基础问题,提出了一种基于固定秩张量流形结构的新型预条件黎曼度量,并据此设计了高效的预条件黎曼梯度下降算法。与传统方法相比,该算法在保持相同单次迭代计算复杂度的同时,实现了更快的收敛速度。理论分析表明,该方法在近乎最优的采样复杂度下具备恢复保证;数值实验也显示,其在合成数据和真实世界视频修复任务中均优于现有最优方法。相关成果已发表于ICML 2025,为高维数据处理中张量方法的应用提供了有力工具。

三、AI应用

AI应用方面,周冰心团队推出VenusVaccine,实现更精准免疫原性预测。逆向疫苗学的关键在于预测哪些候选疫苗能触发保护性免疫反应。针对现有方法精度有限的问题,周冰心团队推出了VenusVaccine——一款基于深度学习的创新工具。VenusVaccine采用双重注意力机制,融合蛋白质序列与结构信息,同时搭配迄今最全面的免疫原性数据集,涵盖7000多个来自细菌、病毒和肿瘤的抗原。实验结果显示,它在多项指标上均领先现有方法,并通过事后验证方案证明了在实际疫苗设计中的应用价值。这一研究为疫苗开发提供了高效工具,也为未来免疫原性研究树立了新标准。相关成果已发表于ICLR 2025。

另外,团队推出了VenusFactory是蛋白质工程领域的统一开放式平台,支持图形用户界面(GUI)和命令行操作。该平台通过简化的无代码工作流程,实现突变预测、功能预测、氨基酸点位预测、数据检索、模型训练、评估和部署,目前蛋白质AI模型与数据集月下载量超10w。该成果已发表于ACL2025。

四、领域主席(Area Chair)

值得一提的是,自然科学研究院梁经纬副教授担任了ICML2025和NeurIPS2025的领域主席(Area Chair,以下简称AC),其在ICML担任AC一年,在NeurIPS连续担任AC两年。闵含城副教授将担任ICLR 2026和AISTATS 2026的AC。刘林副教授也曾在2023年和2024年担任CLeaR会议的AC(Causal Learning and Reasoning,因果学习与推理大会,该会议是聚焦于因果科学前沿的顶级学术会议)。此外,王宇光副教授出任了世界图机器学习大会(LoG Conference 2024)的联席主席。

AC须具备丰富的会议/期刊同行评审经验,同时,应在机器学习多个核心子领域拥有深厚专业积累或宽广学术视野,在推动学术交流和研究前沿方面发挥重要作用。

近年来,人工智能在社会与科技发展中的影响日益显著,上海交大自然科学研究院的系列成果,展示了科研的原创性与竞争力,为人工智能理论突破与实际应用提供了坚实的学术支撑。未来,研究院将继续聚焦人工智能基础,推动前沿交叉创新,力争持续贡献“交大智慧”。

相关团队研究主页链接,欢迎感兴趣的老师与同学交流与合作。

梁经纬:https://jliang993.github.io/

__林:https://linliu-stats.github.io/

__涛:https://math.sjtu.edu.cn/Default/teachershow/tags/MDAwMDAwMDAwMLKIet0%E3%80%91

闵含城:https://hanchmin.github.io/

王宇光:https://yuguangwang.github.io/

__昊:https://ins.sjtu.edu.cn/peoples/wuhao

许志钦:https://ins.sjtu.edu.cn/people/xuzhiqin/

张小群:https://math.sjtu.edu.cn/faculty/xqzhang/

张耀宇:https://yaoyuzhang1.github.io/

周冰心:https://ins.sjtu.edu.cn/peoples/ZhouBingxin

作者: INS 供稿单位: 自然科学研究院

© 版权声明
第九届电气、机械与计算机工程国际学术会议(ICEMCE 2025)
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第四届能源与动力工程国际学术会议(EPE 2025)

暂无评论

none
暂无评论...