研究实现科研图表数据自动化高精度重构

文章导读
当你看完一篇论文,想用其中的图表数据做自己的分析时,是不是还得靠尺子量屏幕或者手动输入坐标?这种“考古式”的数据提取方式,不仅效率低,还容易引入肉眼误差。现在,中科院团队带来了一套全新的深度学习框架,能直接从图表图像中自动恢复出精准的原始数据——它甚至能识别坐标轴上的刻度线和数字,实现像素级对齐。这套系统在权威评测中已击败国际主流方案,但它的真正价值或许在于:那些发表在十几万篇文献里的“沉睡数据”,终于能被自动唤醒了。你还在手动提取数据吗?
— 内容由好学术AI分析文章内容生成,仅供参考。
科研图表是承载实验数据和科学结论的重要载体,海量学术文献中的散点图、柱状图蕴含着丰富的原始实验数据。传统数据提取工具多依赖人工交互,现有自动化技术仍停留在图表元素识别阶段,难以实现高精度的数据获取。
近期,中国科学院计算机网络信息中心研发出科研图表智能解析深度学习框架ChartRecover,实现从科研图表图像到结构化科学数据的自动化提取与高精度重构。研究团队提出刻度线—刻度值对齐算法,实现坐标轴语义信息与空间位置的精准匹配。在国际权威评测数据集上的测试结果表明,ChatRecover在图表元素检测和真实数据恢复任务中均达到国际先进水平。
该成果为科研文献中海量“沉睡数据”的自动挖掘提供了重要技术支撑,可广泛应用于科研数据汇聚、知识图谱构建、科学数据库建设及AI for Science等应用场景。
相关研究成果发表在Communications Engineering上。研究工作得到国家重点研发计划、中国科学院战略性先导科技专项等的支持。
© 版权声明
本文由分享者转载或发布,内容仅供学习和交流,版权归原文作者所有。如有侵权,请留言联系更正或删除。














这个方向确实需要,人工提取太费劲了