中国科大大模型并行训练系统研究成果荣获IEEEICCD2025唯一最佳论文奖

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
热门国际学术会议推荐 | 出版检索稳定,快至7天录用
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
文章导读
大模型训练卡在通信瓶颈?中国科大联合团队提出革命性解决方案!受DNA双螺旋结构启发,新系统DHeLlam首次实现无需复制参数的双微批次并行执行,通过“链式交织”机制巧妙掩盖通信开销,兼容数据、张量、流水线等各类主流并行策略,大幅提升训练效率。该成果荣膺IEEE ICCD 2025唯一最佳论文奖,为大规模语言模型训练提供通用高效的新范式,背后技术逻辑令人惊叹。
— 内容由好学术AI分析文章内容生成,仅供参考。

近日,在美国达拉斯举行的第43届IEEE国际计算机设计会议(IEEE International Conference on Computer Design, ICCD 2025)上,我校计算机科学与技术学院与新加坡国立大学、阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)、山西大学以及合肥综合性国家科学中心人工智能研究院合作发表的论文《DHeLlam: General-Purpose, Automatic Micro-batch Co-execution for Distributed LLM Training》荣获大会“唯一最佳论文奖”(Best Paper Award)。

中国科大大模型并行训练系统研究成果荣获IEEEICCD2025唯一最佳论文奖

随着大语言模型参数量不断增加,分布式训练效率面临前所未有的挑战。尽管现有训练框架已在计算层面高度优化,但在实际部署中,通信瓶颈仍严重制约了GPU浮点运算资源的利用率。针对这一关键问题,研究团队受DNA双螺旋结构启发,创新性地提出双流并行叠加系统——DHeLlam。DHeLlam的核心在于其“链式交织”机制:将单个GPU上连续处理的训练微批次视为两条交织的数据链,并通过算子级重叠分析与动态规划搜索,自动地协同调度前向传播与反向传播过程。该方法首次在无需复制模型参数的前提下,实现了两个微批次的高效并行执行,有效掩盖了高昂的通信开销。尤为突出的是,DHeLlam具备卓越的通用兼容性,可无缝集成至各类主流并行策略中,包括数据并行、张量模型并行、上下文并行,乃至复杂的流水线并行,显著提升分布式LLM训练的整体效率。为业界大规模的LLM训练提供了一种更加通用、高效的通信优化方法。

ICCD是由国际电气与电子工程师协会(IEEE)主办的权威国际学术会议,也是中国计算机学会(CCF)推荐的B类国际会议,拥有悠久的创办历史与深厚的学术积淀。多年来,该会议始终聚焦于计算机体系结构、硬件加速技术以及系统软件等关键交叉领域,是全球相关研究方向的重要交流平台与风向标。

本论文第一作者为中国科学技术大学博士研究生王海权与新加坡国立大学博士后阮超逸(共同一作),通讯作者为中国科学技术大学李诚副教授。其他作者包括MBZUAI马晓松教授、中国科大博士生贺嘉、硕士生阮家齐,以及山西大学硕士生唐承捷。该研究得到了科技部重点研发计划子课题、安徽省高校协同创新项目等经费支持。合肥综合性国家科学中心人工智能研究院信息计算平台为系统研发与原型测试提供了智能算力支持。

获奖论文及相关信息已发布于ICCD 2025官方网站:

https://www.iccd-conf.com/home.html

(计算机科学与技术学院、科研部)

© 版权声明
2025年数据科学与智能系统国际会议(DSIS 2025)
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
热门国际学术会议推荐 | 多学科征稿、征稿主题广 | 免费主题匹配
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第三届机器学习与自动化国际学术会议(CONF-MLA 2025)
热门国际学术会议推荐 | 立即查看超全会议列表

暂无评论

none
暂无评论...