国内团队成功训练首个由万卡集群支持的万亿参数大模型

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重
文章导读
国产大模型如何突破万卡算力极限,实现近乎零崩溃的训练?TeleAI团队在万卡集群上成功训练出首个万亿参数模型,颠覆性地提升长文本写作、超长会议纪要生成和大型电子报表处理效率。李学龙教授领衔,利用天翼云国产算力池和自研“息壤”平台,通过多维混合并行、通信优化等关键技术,实现每周仅1.5次中断的高稳定性。开源星辰语义模型TeleChat2-115B以86.9分登顶C-Eval评测,国产算力性能超93%GPU,揭秘这些突破如何重塑中国AI未来。
— 内容由好学术AI分析文章内容生成,仅供参考。

国内团队成功训练首个由万卡集群支持的万亿参数大模型

近日,中国电信人工智能研究院(TeleAI)成功训练出首个由万卡集群支持的万亿参数大模型,在长文本写作、超长会议纪要生成以及大型电子报表处理方面表现出色。该模型由李学龙教授领导的团队开发,使用了天翼云的国产万卡算力池和自研的“息壤”一体化智算服务平台。TeleAI通过多维混合并行等关键技术提升了集群性能和稳定性,实现了国产算力集群的突破,模型训练表现出高稳定性,平均每周仅中断1.5次。TeleAI还开源了千亿参数的星辰语义大模型TeleChat2-115B,是央企首个开源的语义大模型,该模型在C-Eval评测中以86.9分的成绩位列第一。此外,TeleAI在大模型训练上采用了多项关键技术,包括多维混合并行、通信优化、DryRun仿真和灵活重计算配置等,以提升性能和稳定性。这些技术的应用使得国产算力万卡集群性能超过对应GPU93%以上

© 版权声明
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

暂无评论

none
暂无评论...