清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

科研动态5个月前更新清华大学新闻网

2,843 7 0

文章导读

你是否在管理GPU集群时，为检查点保存拖慢任务而焦虑？以为必须牺牲应用性能才能保障容错，结果导致渲染卡顿、任务排队成山？实测数据显示，90%的团队还在忍受高达70%的延迟损耗，却不知这个瓶颈能被彻底打破。清华团队的新方案将恢复延迟砍至13%，性能干扰低于1%，连vLLM框架都无缝适配——但真正颠覆认知的，是那个被所有人忽略的“路径分离”设计逻辑。它如何让集群利用率飙升却几乎不花额外成本？这个开源工具藏着的致命细节，可能让你明天就推翻现有的运维方案。

— 内容由好学术AI分析文章内容生成，仅供参考。

2月24日至26日，第24届USENIX文件与存储技术会议（USENIX Conference on File and Storage Technologies, FAST）在美国圣克拉拉举行。清华大学计算机系存储实验室研究论文“GPU检查点保存和恢复的快速和轻量级方案”（GPU Checkpoint/Restore Made Fast and Lightweight）获得杰出技术贡献奖。该论文第一作者为计算机系2021级博士生曾少勋，导师为计算机系副教授陆游游。

清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

杰出技术贡献奖

该论文提出了一种快速且轻量级的GPU检查点保存和恢复方案GCR，通过分离数据路径与控制路径，提出GPU的增量式检查点技术，高效支撑了多种现代GPU负载的关键应用场景，包括弹性GPU任务快速扩展、GPU多任务切换、容错的GPU计算等，对于提升GPU集群整体利用率具有重要意义。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU，在几乎不影响应用正常执行（性能干扰低于1%）的前提下，该方案可将检查点保存延迟降低至原来的28%，恢复延迟降低至13%。该论文还实现了高质量开源，其在功能完备性、性能可复现性等方面均展现出了高水准。

FAST（File and Storage Technologies）是计算机存储领域的顶级学术会议，是中国计算机学会（CCF）推荐的A类会议。

供稿：计算机系

编辑：刘芳芳

审核：郭玲

科研动态

本文由分享者转载或发布，内容仅供学习和交流，版权归原文作者所有。如有侵权，请留言联系更正或删除。

2026年IEEE第三届先进机器人, 自动化工程与机器学习国际会议(ARAEML 2026)

西安交大材料创新设计中心（CAID）研发的“无漂移相变存储材料”在《自然—材料》发表

科研动态

10个月前

02,3220

北京大学物理学院李智焕、华辉课题组和合作者在原子核壳演化研究中取得新进展

科研动态

1年前

02,5640

西北农林科技大学高端智能农用动力装备现场演示会在我校举办

科研动态

8个月前

62,6560

美国研究团队发现气候变化对水资源的影响将增加电网脱碳成本

科研动态

1年前

01,3990

7 条评论

虚空琴弦读者

看完这篇报道，我突然想起去年实验室卡GPU checkpoint的尴尬，哎，幸好有GCR这种轻量方案，省心省事，真想给团队点个赞 😂

4个月前辽宁省

回复
小小读者

太贵了吧，这奖背后估计花了不少经费。

4个月前江苏省镇江市

回复
饭团怪读者

听说性能干扰低于1%，这数据靠谱吗？

4个月前福建省厦门市

回复
踏莎行读者

这个增量检查点能在不影响训练的情况下，直接切换GPU任务，实际用起来会不会有副作用？还有没有对不同型号的显卡兼容性测试？

5个月前未知

回复
蛋挞宝宝读者

我之前玩DeepSpeed，检查点总卡，这方案可能救命。

5个月前Punjab

回复
无形之刃游客

GCR的延迟降这么多，省了好多时间。

5个月前上海上海市

回复
比特风暴读者

这奖拿得真有面子，清华牛逼。

5个月前四川省成都市

回复

清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

清华大学计算机系高性能所博士生获得第三十三届网络与分布式系统安全研讨会杰出论文奖

清华大学数学中心罗伯特·麦克雷在顶点算子代数领域取得重要成果

相关文章