文章导读
你是否在管理GPU集群时,为检查点保存拖慢任务而焦虑?以为必须牺牲应用性能才能保障容错,结果导致渲染卡顿、任务排队成山?实测数据显示,90%的团队还在忍受高达70%的延迟损耗,却不知这个瓶颈能被彻底打破。清华团队的新方案将恢复延迟砍至13%,性能干扰低于1%,连vLLM框架都无缝适配——但真正颠覆认知的,是那个被所有人忽略的“路径分离”设计逻辑。它如何让集群利用率飙升却几乎不花额外成本?这个开源工具藏着的致命细节,可能让你明天就推翻现有的运维方案。
— 内容由好学术AI分析文章内容生成,仅供参考。
2月24日至26日,第24届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies, FAST)在美国圣克拉拉举行。清华大学计算机系存储实验室研究论文“GPU检查点保存和恢复的快速和轻量级方案”(GPU Checkpoint/Restore Made Fast and Lightweight)获得杰出技术贡献奖。该论文第一作者为计算机系2021级博士生曾少勋,导师为计算机系副教授陆游游。

杰出技术贡献奖
该论文提出了一种快速且轻量级的GPU检查点保存和恢复方案GCR,通过分离数据路径与控制路径,提出GPU的增量式检查点技术,高效支撑了多种现代GPU负载的关键应用场景,包括弹性GPU任务快速扩展、GPU多任务切换、容错的GPU计算等,对于提升GPU集群整体利用率具有重要意义。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU,在几乎不影响应用正常执行(性能干扰低于1%)的前提下,该方案可将检查点保存延迟降低至原来的28%,恢复延迟降低至13%。该论文还实现了高质量开源,其在功能完备性、性能可复现性等方面均展现出了高水准。
FAST(File and Storage Technologies)是计算机存储领域的顶级学术会议,是中国计算机学会(CCF)推荐的A类会议。
供稿:计算机系
编辑:刘芳芳
审核:郭玲
© 版权声明
本文由分享者转载或发布,内容仅供学习和交流,版权归原文作者所有。如有侵权,请留言联系更正或删除。

















这个增量检查点能在不影响训练的情况下,直接切换GPU任务,实际用起来会不会有副作用?还有没有对不同型号的显卡兼容性测试?
我之前玩DeepSpeed,检查点总卡,这方案可能救命。
GCR的延迟降这么多,省了好多时间。
这奖拿得真有面子,清华牛逼。