国家高质量数据集典型案例 | VenusPod蛋白质序列数据集

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
第十届计算机技术与机械电气工程国际学术论坛(ISCME 2025)暨2025年泰山学术论坛-鲁东大学微纳传感器及系统专题论坛
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
文章导读
你是否想过,破解蛋白质“暗物质”的钥匙,就藏在深海7亿条独家序列中?随着AlphaFold获诺奖,中国如何抢占AI for Science制高点?VenusPod数据集横空出世,汇聚150亿条蛋白序列,打造全球最大的蛋白质“基因宝库”。它不仅破解了小样本学习难题,更将酶研发周期从5年压缩至2个月。耐碱、耐热、可量产,30余款蛋白成功改造,10余款已落地应用。一场由AI驱动的生物制造革命,正在悄然发生。
— 内容由好学术AI分析文章内容生成,仅供参考。

一、背景

2024年诺贝尔化学奖授予AlphaFold,标志着生命科学正从“实验驱动”向“数据与计算驱动”的“科学智能(AI for Science)”范式演进。现有蛋白质和酶的数据库在深度、广度和功能标注维度上均存在不足,导致AI模型难以对海量蛋白质中的“暗物质”进行探索和优化。本案例构建了目前全球最大的蛋白质序列数据集VenusPod,包含150亿条蛋白质序列(其中7亿条序列来自我国的MEER计划,是“人无我有”核心数据壁垒)。以此数据集为基础,打造了世界领先的AI驱动的酶发现与设计引擎,解决“找不到、不好用”的工业用酶瓶颈问题,直接服务于生物医药、绿色制造等国家战略领域。

国家高质量数据集典型案例 | VenusPod蛋白质序列数据集

图:VenusPod数据集及Venus系列模型建设方案

二、方案和成效

一是汇聚多维蛋白质信息,突破训练数据多样性瓶颈。VenusPod整合多个数据库,涵盖150亿条蛋白质序列,其中65亿条具备功能标签。这其中包括7亿条深海序列,源自我国MEER计划,是我国独有的珍贵资源。

二是突破蛋白质设计中小样本学习的难题。基于预训练与小样本微调范式,Venus系列模型可从海量序列中筛选具有特定功能的蛋白质,并预测高性能突变体,将传统方法2~5年的研发周期缩短到2~6个月,显著降低实验时间与成本。

三是建立AI预测与实验验证高效协同的闭环体系。Venus模型结合自动化实验平台,构建“干实验预测—湿实验验证—数据回流”的迭代流程,实现AI高通量预测与实验验证的协同,持续推动模型性能优化。该平台过去1年半成功改造30余款蛋白,其中10余款落地产业化,包括耐碱VHH蛋白、极度耐碱亲和填料(ProteinA)、极度耐热DNA聚合酶(Phi29)等。

三、创新点

一是汇聚多维蛋白质信息,突破训练数据多样性瓶颈。VenusPod整合多个数据库,涵盖150亿条蛋白质序列,其中65亿条具备功能标签。这其中包括7亿条深海蛋白序列,源自我国MEER计划,是独有的珍贵资源。

二是突破蛋白质设计中小样本学习的难题。基于预训练与小样本微调范式,Venus系列模型可从海量序列中筛选具有特定功能的蛋白质,并预测高性能突变体,显著缩短研发周期,降低实验成本。

三是建立AI预测与实验验证高效协同的闭环体系。Venus模型结合自动化实验平台,构建“干实验预测—湿实验验证—数据回流”的迭代流程,实现AI高通量预测与实验验证的协同,持续推动模型性能优化。

作者: INS 供稿单位: 自然科学研究院

© 版权声明
第九届电气、机械与计算机工程国际学术会议(ICEMCE 2025)
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第四届能源与动力工程国际学术会议(EPE 2025)

暂无评论

none
暂无评论...