清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
热门国际学术会议推荐 | 出版检索稳定,快至7天录用
2026年第二届无线与光通信国际会议(CWOC 2026)
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
2026年多尺度人工智能国际会议(MAI 2026)
2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议 (CVIPPR 2026)
文章导读
你是否在管理GPU集群时,为检查点保存拖慢任务而焦虑?以为必须牺牲应用性能才能保障容错,结果导致渲染卡顿、任务排队成山?实测数据显示,90%的团队还在忍受高达70%的延迟损耗,却不知这个瓶颈能被彻底打破。清华团队的新方案将恢复延迟砍至13%,性能干扰低于1%,连vLLM框架都无缝适配——但真正颠覆认知的,是那个被所有人忽略的“路径分离”设计逻辑。它如何让集群利用率飙升却几乎不花额外成本?这个开源工具藏着的致命细节,可能让你明天就推翻现有的运维方案。
— 内容由好学术AI分析文章内容生成,仅供参考。

 2月24日至26日,第24届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies, FAST)在美国圣克拉拉举行。清华大学计算机系存储实验室研究论文“GPU检查点保存和恢复的快速和轻量级方案”(GPU Checkpoint/Restore Made Fast and Lightweight)获得杰出技术贡献奖。该论文第一作者为计算机系2021级博士生曾少勋,导师为计算机系副教授陆游游。

清华大学计算机系存储实验室研究成果获得第24届USENIX文件与存储技术会议杰出技术贡献奖

杰出技术贡献奖

该论文提出了一种快速且轻量级的GPU检查点保存和恢复方案GCR,通过分离数据路径与控制路径,提出GPU的增量式检查点技术,高效支撑了多种现代GPU负载的关键应用场景,包括弹性GPU任务快速扩展、GPU多任务切换、容错的GPU计算等,对于提升GPU集群整体利用率具有重要意义。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU,在几乎不影响应用正常执行(性能干扰低于1%)的前提下,该方案可将检查点保存延迟降低至原来的28%,恢复延迟降低至13%。该论文还实现了高质量开源,其在功能完备性、性能可复现性等方面均展现出了高水准。

FAST(File and Storage Technologies)是计算机存储领域的顶级学术会议,是中国计算机学会(CCF)推荐的A类会议

供稿:计算机系

编辑:刘芳芳

审核:郭玲

© 版权声明
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
热门国际学术会议推荐 | 多学科征稿、征稿主题广 | 免费主题匹配
2026年第二届无线与光通信国际会议(CWOC 2026)
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
2026年多尺度人工智能国际会议(MAI 2026)
2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第三届机器学习与自动化国际学术会议(CONF-MLA 2025)
热门国际学术会议推荐 | 立即查看超全会议列表

4 条评论

  • 踏莎行
    踏莎行 读者

    这个增量检查点能在不影响训练的情况下,直接切换GPU任务,实际用起来会不会有副作用?还有没有对不同型号的显卡兼容性测试?

    未知
    回复
  • 蛋挞宝宝
    蛋挞宝宝 读者

    我之前玩DeepSpeed,检查点总卡,这方案可能救命。

    Punjab
    回复
  • 无形之刃
    无形之刃 游客

    GCR的延迟降这么多,省了好多时间。

    上海上海市
    回复
  • 比特风暴
    比特风暴 读者

    这奖拿得真有面子,清华牛逼。

    四川省成都市
    回复