清华大学计算机系存储实验室团队获得MLSys 2026大模型推理优化赛事冠军

科研动态2个月前更新清华大学新闻网

1,351 7 0

清华大学计算机系存储实验室团队获得MLSys 2026大模型推理优化赛事冠军

文章导读

还在为团队的大模型推理速度慢到用户流失而焦虑？90%的人都在死磕硬件升级，以为换H100就能解决问题。但清华存储实验室用一个被忽略的软件技巧，在AWS上把Qwen3-30B的端到端推理从14.9秒压到了3.5秒——直接击败斯坦福、MIT等顶级队伍。他们没换任何昂贵设备，只是在一个叫“专家分片”的环节做了件反直觉的事：把数据布局重构了。如果你也想不烧钱就让模型快4倍，这篇文章里藏着那个能让你们效率翻倍、但90%的团队都踩错方向的关键步骤。

— 内容由好学术AI分析文章内容生成，仅供参考。

近日，第九届机器学习与系统会议（MLSys 2026）在美国华盛顿州贝尔维尤举行。由清华大学计算机系存储实验室博士生高世伟、范如文、任庭旭、罗以彬等组成，计算机系教授舒继武、副教授陆游游担任指导教师，腾讯AI系统专家里德（Reed）提供技术支持的参赛团队，在会议举办的混合专家模型内核优化挑战赛中获得冠军。

本次比赛面向Qwen3-30B-A3B混合专家模型的真实解码推理场景，吸引了来自斯坦福大学、麻省理工学院、加州大学伯克利分校、卡内基梅隆大学、加州大学洛杉矶分校、康奈尔大学等高校组队参赛。比赛中，计算机系存储实验室团队成员基于亚马逊AWS提供的NKI编程框架，围绕专家分片、矩阵向量乘特化、片上数据布局重构、跨算子融合和自动化算子优化等关键技术，对推理解码阶段进行了系统优化，将端到端推理时间从14.91秒降至3.56秒，实现约4.1倍加速，最终获得冠军。

这是计算机系存储实验室团队继2025年获得ASPLOS/EuroSys大模型推理优化竞赛冠军后，再次在国际顶级学术会议举办的大模型推理优化赛事中夺冠。

MLSys是机器学习系统领域的国际顶级学术会议之一，聚焦机器学习与计算机系统的交叉研究，涵盖大模型训练与推理、AI编译器、计算机体系结构、分布式系统、专用AI硬件等前沿方向。

供稿：计算机系

编辑：李华山

审核：郭玲