科学工作流执行优化研究获进展

文章导读
你是否想过,科学计算的“卡脖子”问题竟出在数据搬运上?随着数据量暴增,传统工作流因计算与传输不同步,频频陷入性能瓶颈。中国科学院团队最新突破,提出一种以数据为中心的异步执行框架,通过数据驱动的流水线调度、智能传输机制和动态同步保障,首次实现计算与数据“并行不悖”。实测显示,该方案在大规模视频处理中延迟直降38.8%,显著提升科学工作流效率。这项发表于《CCF Transactions on High Performance Computing》的研究,为超算与AI时代的高效科研计算提供了全新解法。
— 内容由好学术AI分析文章内容生成,仅供参考。
科学工作流由相互依赖的计算任务构成,已成为现代科学计算的基石。当前计算资源快速提升,但网络与I/O带宽发展相对滞后,加之超算互联网、AI+大数据等推动数据密集型工作流兴起,数据交互环节成为制约部分科学工作流性能的瓶颈。
为优化计算任务与数据交互的协同,提高工作流整体性能,近日,中国科学院计算机网络信息中心提出面向高性能计算环境、以数据为中心的科学工作流执行框架高性能计算工作流。该工作流采用数据驱动式异步执行模式,节省集中式协调开销,实现计算与数据交互的异步流水线式执行;引入上下文感知的数据传输机制,提升不同场景下的数据传输效率;建立输入数据同步机制,保障资源动态扩缩时跨节点并行任务的输入数据完整性,增强系统在真实高性能计算集群中的适用性与鲁棒性。
生产级高性能计算环境实证评估表明,高性能计算工作流可节省集中式协调开销,实现计算与数据传输的异步流水线,在数据密集型场景下表现出性能优势。在大规模视频处理工作流实验中,高性能计算工作流实现的流水线重叠,能节省38.8%延迟。相较于传统执行方式,高性能计算工作流通过协同优化计算任务与数据交互,可降低科学工作流总完成时间与端到端延迟。
研究成果发表在CCF Transactions on High Performance Computing上。研究工作得到国家重点研发计划的支持。
© 版权声明
本文由分享者转载或发布,内容仅供学习和交流,版权归原文作者所有。如有侵权,请留言联系更正或删除。

















我之前在集群上跑视频流水线,数据搬运真是瓶颈,看到能降38.8%挺香的。
能否具体说说上下文感知的数据传输是怎么判断优先级的?有没有实验细节?
这个思路挺有意思,数据驱动的异步执行对IO密集型场景确实能省不少时间。