清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

文章导读

你是否在管理GPU集群时，为检查点保存拖慢任务而焦虑？以为必须牺牲应用性能才能保障容错，结果导致渲染卡顿、任务排队成山？实测数据显示，90%的团队还在忍受高达70%的延迟损耗，却不知这个瓶颈能被彻底打破。清华团队的新方案将恢复延迟砍至13%，性能干扰低于1%，连vLLM框架都无缝适配——但真正颠覆认知的，是那个被所有人忽略的“路径分离”设计逻辑。它如何让集群利用率飙升却几乎不花额外成本？这个开源工具藏着的致命细节，可能让你明天就推翻现有的运维方案。

— 内容由好学术AI分析文章内容生成，仅供参考。

2月24日至26日，第24届USENIX文件与存储技术会议（USENIX Conference on File and Storage Technologies, FAST）在美国圣克拉拉举行。清华大学计算机系存储实验室研究论文“GPU检查点保存和恢复的快速和轻量级方案”（GPU Checkpoint/Restore Made Fast and Lightweight）获得杰出技术贡献奖。该论文第一作者为计算机系2021级博士生曾少勋，导师为计算机系副教授陆游游。

清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

杰出技术贡献奖

该论文提出了一种快速且轻量级的GPU检查点保存和恢复方案GCR，通过分离数据路径与控制路径，提出GPU的增量式检查点技术，高效支撑了多种现代GPU负载的关键应用场景，包括弹性GPU任务快速扩展、GPU多任务切换、容错的GPU计算等，对于提升GPU集群整体利用率具有重要意义。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU，在几乎不影响应用正常执行（性能干扰低于1%）的前提下，该方案可将检查点保存延迟降低至原来的28%，恢复延迟降低至13%。该论文还实现了高质量开源，其在功能完备性、性能可复现性等方面均展现出了高水准。

FAST（File and Storage Technologies）是计算机存储领域的顶级学术会议，是中国计算机学会（CCF）推荐的A类会议。

供稿：计算机系

编辑：刘芳芳

审核：郭玲

科研动态

本文由分享者转载或发布，内容仅供学习和交流，版权归原文作者所有。如有侵权，请留言联系更正或删除。

IOP-JPCS出版｜2026年先进电子与自动化技术国际学术会议（AEAT 2026）

2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)

中山大学中山大学“海琴”号深海遥控潜水器海试暨科学应用航次启航

科研动态

8个月前

01,8670

研究解析牦牛毛囊适应高原寒冷环境的分子特征

科研动态

2个月前

35500

上海交大向导、钱冬团队PRL发文：超快电子衍射揭示激子绝缘体候选材料Ta₂NiSe₅光致能隙变化的结构起源

科研动态

7个月前

01,1280

电子科技大学2025年TI杯全国大学生电子设计竞赛（四川赛区）测试评审工作在我校圆满落幕

科研动态

8个月前

01,7900

7 条评论

虚空琴弦读者

看完这篇报道，我突然想起去年实验室卡GPU checkpoint的尴尬，哎，幸好有GCR这种轻量方案，省心省事，真想给团队点个赞 😂

2周前辽宁省

回复
小小读者

太贵了吧，这奖背后估计花了不少经费。

3周前江苏省镇江市

回复
饭团怪读者

听说性能干扰低于1%，这数据靠谱吗？

3周前福建省厦门市

回复
踏莎行读者

这个增量检查点能在不影响训练的情况下，直接切换GPU任务，实际用起来会不会有副作用？还有没有对不同型号的显卡兼容性测试？

2个月前未知

回复
蛋挞宝宝读者

我之前玩DeepSpeed，检查点总卡，这方案可能救命。

2个月前Punjab

回复
无形之刃游客

GCR的延迟降这么多，省了好多时间。

2个月前上海上海市

回复
比特风暴读者

这奖拿得真有面子，清华牛逼。

2个月前四川省成都市

回复

清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

清华大学计算机系高性能所博士生获得第三十三届网络与分布式系统安全研讨会杰出论文奖

清华大学数学中心罗伯特·麦克雷在顶点算子代数领域取得重要成果

相关文章

中山大学中山大学“海琴”号深海遥控潜水器海试暨科学应用航次启航

研究解析牦牛毛囊适应高原寒冷环境的分子特征

上海交大向导、钱冬团队PRL发文：超快电子衍射揭示激子绝缘体候选材料Ta₂NiSe₅光致能隙变化的结构起源

电子科技大学2025年TI杯全国大学生电子设计竞赛（四川赛区）测试评审工作在我校圆满落幕

7 条评论

热点推荐

学术网址

清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

清华大学计算机系高性能所博士生获得第三十三届网络与分布式系统安全研讨会杰出论文奖

清华大学数学中心罗伯特·麦克雷在顶点算子代数领域取得重要成果

相关文章

中山大学中山大学“海琴”号深海遥控潜水器海试暨科学应用航次启航

研究解析牦牛毛囊适应高原寒冷环境的分子特征

上海交大向导、钱冬团队PRL发文：超快电子衍射揭示激子绝缘体候选材料Ta₂NiSe₅光致能隙变化的结构起源

电子科技大学2025年TI杯全国大学生电子设计竞赛（四川赛区） 测试评审工作在我校圆满落幕

7 条评论

热点推荐

学术网址

头条标签

电子科技大学2025年TI杯全国大学生电子设计竞赛（四川赛区）测试评审工作在我校圆满落幕