国内团队成功训练首个由万卡集群支持的万亿参数大模型

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
第十届计算机技术与机械电气工程国际学术论坛(ISCME 2025)暨2025年泰山学术论坛-鲁东大学微纳传感器及系统专题论坛
2025年数据科学与智能系统国际会议(DSIS 2025)
文章导读
国产大模型如何突破万卡算力极限,实现近乎零崩溃的训练?TeleAI团队在万卡集群上成功训练出首个万亿参数模型,颠覆性地提升长文本写作、超长会议纪要生成和大型电子报表处理效率。李学龙教授领衔,利用天翼云国产算力池和自研“息壤”平台,通过多维混合并行、通信优化等关键技术,实现每周仅1.5次中断的高稳定性。开源星辰语义模型TeleChat2-115B以86.9分登顶C-Eval评测,国产算力性能超93%GPU,揭秘这些突破如何重塑中国AI未来。
— 内容由好学术AI分析文章内容生成,仅供参考。

国内团队成功训练首个由万卡集群支持的万亿参数大模型

近日,中国电信人工智能研究院(TeleAI)成功训练出首个由万卡集群支持的万亿参数大模型,在长文本写作、超长会议纪要生成以及大型电子报表处理方面表现出色。该模型由李学龙教授领导的团队开发,使用了天翼云的国产万卡算力池和自研的“息壤”一体化智算服务平台。TeleAI通过多维混合并行等关键技术提升了集群性能和稳定性,实现了国产算力集群的突破,模型训练表现出高稳定性,平均每周仅中断1.5次。TeleAI还开源了千亿参数的星辰语义大模型TeleChat2-115B,是央企首个开源的语义大模型,该模型在C-Eval评测中以86.9分的成绩位列第一。此外,TeleAI在大模型训练上采用了多项关键技术,包括多维混合并行、通信优化、DryRun仿真和灵活重计算配置等,以提升性能和稳定性。这些技术的应用使得国产算力万卡集群性能超过对应GPU93%以上

© 版权声明
第九届电气、机械与计算机工程国际学术会议(ICEMCE 2025)

相关文章

第四届能源与动力工程国际学术会议(EPE 2025)

暂无评论

none
暂无评论...