国内团队成功训练首个由万卡集群支持的万亿参数大模型

国内团队成功训练首个由万卡集群支持的万亿参数大模型

近日,中国电信人工智能研究院(TeleAI)成功训练出首个由万卡集群支持的万亿参数大模型,在长文本写作、超长会议纪要生成以及大型电子报表处理方面表现出色。该模型由李学龙教授领导的团队开发,使用了天翼云的国产万卡算力池和自研的“息壤”一体化智算服务平台。TeleAI通过多维混合并行等关键技术提升了集群性能和稳定性,实现了国产算力集群的突破,模型训练表现出高稳定性,平均每周仅中断1.5次。TeleAI还开源了千亿参数的星辰语义大模型TeleChat2-115B,是央企首个开源的语义大模型,该模型在C-Eval评测中以86.9分的成绩位列第一。此外,TeleAI在大模型训练上采用了多项关键技术,包括多维混合并行、通信优化、DryRun仿真和灵活重计算配置等,以提升性能和稳定性。这些技术的应用使得国产算力万卡集群性能超过对应GPU93%以上

© 版权声明

相关文章

学术会议云

暂无评论

none
暂无评论...