清华大学自动化系江瑞团队表观基因组研究成果入选2025年度“中国生物信息学十大进展”

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
热门国际学术会议推荐 | 出版检索稳定,快至7天录用
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
2026年多尺度人工智能国际会议(MAI 2026)
2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议 (CVIPPR 2026)
2026年第五届网络、通信与信息技术国际会议(CNCIT 2026)
2026年智能机器人与控制技术国际会议(CIRCT 2026)
文章导读
你手里可能正有一堆单细胞数据,却不知道如何把海量开放染色质信号变成可用的、生物学上可解释的结论。大多数人还在靠碎片化的峰值比对和基因富集走套路,结果是信息碎片化、耗时又易出错。清华江瑞团队这次把五百万细胞、三百五十亿调控元件喂进一个名为EpiAgent的14亿参数“基础模型”,把单细胞调控元件压缩成“细胞语句”,并在肿瘤内外源扰动与虚拟敲除上给出高精度推演——这不是简单的算法堆叠,而是把表观基因组从拼图式分析推进到可预测的“虚拟细胞”范式。你想知道这对你现有分析流程意味着什么?也许省下一年重复试验,或者彻底改变你的假设检验方向,真正关键的细节藏在哪一层词元化和预训练任务里?
— 内容由好学术AI分析文章内容生成,仅供参考。

近日,清华大学自动化系江瑞教授团队2025年9月发表于《自然·方法》(Nature Methods)的表观基因组研究成果“单细胞表观基因组基础模型——EpiAgent”(EpiAgent—foundationmodel for single-cell epigenomics),经过《基因组蛋白质组与生物信息学报》(Genomics, Proteomics & Bioinformatics, GPB)评审,入选2025年度“中国生物信息学十大进展”。

表观基因组是连接DNA序列与人体表型、解析致病机制的关键桥梁。江瑞团队建立了国际上首个单细胞表观基因组基础模型EpiAgent,原创性地将单个细胞的百万调控元件压缩为“细胞语句”,构建14亿参数的大模型统一解析复杂的基因调控规律。该模型通过独创的预训练任务,在涵盖500万细胞、350亿调控元件的自建超大规模人类染色质开放性图谱(Human-scATAC-Corpus)上完成训练。EpiAgent不仅使大规模表观基因组数据整合分析成为可能,更在肿瘤细胞中实现了内外源扰动响应与调控元件虚拟敲除的精准推演,从而全面开启了表观基因组虚拟细胞研究与应用的新范式。

清华大学自动化系江瑞团队表观基因组研究成果入选2025年度“中国生物信息学十大进展”

EpiAgent预训练数据、词元化过程、模型架构及预训练任务

论文链接:

https://www.nature.com/articles/s41592-025-02822-z

供稿:自动化系

编辑:刘芳芳

审核:郭玲

© 版权声明
热门国际学术会议推荐 | 多学科征稿、征稿主题广 | 免费主题匹配
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
2026年多尺度人工智能国际会议(MAI 2026)
IOP-JPCS出版|2026年先进电子与自动化技术国际学术会议(AEAT 2026)
2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)
2026年第五届网络、通信与信息技术国际会议(CNCIT 2026)
2026年智能机器人与控制技术国际会议(CIRCT 2026)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第三届机器学习与自动化国际学术会议(CONF-MLA 2025)
热门国际学术会议推荐 | 立即查看超全会议列表

6 条评论

  • 高傲金丝雀
    高傲金丝雀 游客

    太惊艳了,感觉基因编辑又近了一步

    浙江省宁波市
    回复
  • 硅基诗人
    硅基诗人 游客

    我之前也玩过单细胞ATAC,数据清洗真头疼

    未知
    回复
  • 头发炸毛的刺猬
    头发炸毛的刺猬 游客

    参数14亿,训练算力怕是要烧掉服务器

    浙江省宁波市
    回复
  • 云袖飘
    云袖飘 读者

    这个模型在癌症细胞上准确率是多少呀?

    马哈拉施特拉孟买
    回复
  • 雾纱梦境
    雾纱梦境 读者

    听说EpiAgent能虚拟敲基因,脑洞大开

    上海上海市
    回复
  • 小宇
    小宇 读者

    这模型真的太酷了,基因组分析有新突破

    大雅加达雅加达
    回复