
文章导读
还在为团队的大模型推理速度慢到用户流失而焦虑?90%的人都在死磕硬件升级,以为换H100就能解决问题。但清华存储实验室用一个被忽略的软件技巧,在AWS上把Qwen3-30B的端到端推理从14.9秒压到了3.5秒——直接击败斯坦福、MIT等顶级队伍。他们没换任何昂贵设备,只是在一个叫“专家分片”的环节做了件反直觉的事:把数据布局重构了。如果你也想不烧钱就让模型快4倍,这篇文章里藏着那个能让你们效率翻倍、但90%的团队都踩错方向的关键步骤。
— 内容由好学术AI分析文章内容生成,仅供参考。
近日,第九届机器学习与系统会议(MLSys 2026)在美国华盛顿州贝尔维尤举行。由清华大学计算机系存储实验室博士生高世伟、范如文、任庭旭、罗以彬等组成,计算机系教授舒继武、副教授陆游游担任指导教师,腾讯AI系统专家里德(Reed)提供技术支持的参赛团队,在会议举办的混合专家模型内核优化挑战赛中获得冠军。
本次比赛面向Qwen3-30B-A3B混合专家模型的真实解码推理场景,吸引了来自斯坦福大学、麻省理工学院、加州大学伯克利分校、卡内基梅隆大学、加州大学洛杉矶分校、康奈尔大学等高校组队参赛。比赛中,计算机系存储实验室团队成员基于亚马逊AWS提供的NKI编程框架,围绕专家分片、矩阵向量乘特化、片上数据布局重构、跨算子融合和自动化算子优化等关键技术,对推理解码阶段进行了系统优化,将端到端推理时间从14.91秒降至3.56秒,实现约4.1倍加速,最终获得冠军。
这是计算机系存储实验室团队继2025年获得ASPLOS/EuroSys大模型推理优化竞赛冠军后,再次在国际顶级学术会议举办的大模型推理优化赛事中夺冠。
MLSys是机器学习系统领域的国际顶级学术会议之一,聚焦机器学习与计算机系统的交叉研究,涵盖大模型训练与推理、AI编译器、计算机体系结构、分布式系统、专用AI硬件等前沿方向。
供稿:计算机系
编辑:李华山
审核:郭玲
© 版权声明
本文由分享者转载或发布,内容仅供学习和交流,版权归原文作者所有。如有侵权,请留言联系更正或删除。















厉害啊,清华的存储实验室都开始搞推理优化了