清华大学计算机系存储实验室团队获得MLSys 2026大模型推理优化赛事冠军

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
热门国际学术会议推荐 | 出版检索稳定,快至7天录用
2026年第五届网络、通信与信息技术国际会议(CNCIT 2026)
2026年智能机器人与控制技术国际会议(CIRCT 2026)
2026年传感器技术、自动化与智能制造国际会议(STAIM 2026
ACEEE 2026

清华大学计算机系存储实验室团队获得MLSys 2026大模型推理优化赛事冠军

文章导读
还在为团队的大模型推理速度慢到用户流失而焦虑?90%的人都在死磕硬件升级,以为换H100就能解决问题。但清华存储实验室用一个被忽略的软件技巧,在AWS上把Qwen3-30B的端到端推理从14.9秒压到了3.5秒——直接击败斯坦福、MIT等顶级队伍。他们没换任何昂贵设备,只是在一个叫“专家分片”的环节做了件反直觉的事:把数据布局重构了。如果你也想不烧钱就让模型快4倍,这篇文章里藏着那个能让你们效率翻倍、但90%的团队都踩错方向的关键步骤。
— 内容由好学术AI分析文章内容生成,仅供参考。

近日,第九届机器学习与系统会议(MLSys 2026)在美国华盛顿州贝尔维尤举行。由清华大学计算机系存储实验室博士生高世伟、范如文、任庭旭、罗以彬等组成,计算机系教授舒继武、副教授陆游游担任指导教师,腾讯AI系统专家里德(Reed提供技术支持的参赛团队,在会议举办的混合专家模型内核优化挑战赛中获得冠军。

本次比赛面向Qwen3-30B-A3B混合专家模型的真实解码推理场景,吸引了来自斯坦福大学、麻省理工学院、加州大学伯克利分校、卡内基梅隆大学、加州大学洛杉矶分校、康奈尔大学等高校组队参赛。比赛中,计算机系存储实验室团队成员基于亚马逊AWS提供的NKI编程框架,围绕专家分片、矩阵向量乘特化、片上数据布局重构、跨算子融合和自动化算子优化等关键技术,对推理解码阶段进行了系统优化,将端到端推理时间从14.91秒降至3.56秒,实现约4.1倍加速,最终获得冠军。

这是计算机系存储实验室团队继2025年获得ASPLOS/EuroSys大模型推理优化竞赛冠军后,再次在国际顶级学术会议举办的大模型推理优化赛事中夺冠。

MLSys是机器学习系统领域的国际顶级学术会议之一,聚焦机器学习与计算机系统的交叉研究,涵盖大模型训练与推理、AI编译器、计算机体系结构、分布式系统、专用AI硬件等前沿方向。

供稿:计算机系

编辑:李华山

审核:郭玲

© 版权声明
TKPaper-你的智能选刊助手
热门国际学术会议推荐 | 多学科征稿、征稿主题广 | 免费主题匹配
IOP-JPCS出版|2026年先进电子与自动化技术国际学术会议(AEAT 2026)
2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)
2026年智能机器人与控制技术国际会议(CIRCT 2026)
2026年传感器技术、自动化与智能制造国际会议(STAIM 2026)
BDAI 2026

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
热门国际学术会议推荐 | 立即查看超全会议列表

1 条评论

  • 兔子
    兔子 读者

    厉害啊,清华的存储实验室都开始搞推理优化了

    北京北京市
    回复