清华大学自动化系江瑞团队表观基因组研究成果入选2025年度“中国生物信息学十大进展”

科研动态2周前更新清华大学新闻网

303 6 0

2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议 (CVIPPR 2026)

文章导读

你手里可能正有一堆单细胞数据，却不知道如何把海量开放染色质信号变成可用的、生物学上可解释的结论。大多数人还在靠碎片化的峰值比对和基因富集走套路，结果是信息碎片化、耗时又易出错。清华江瑞团队这次把五百万细胞、三百五十亿调控元件喂进一个名为EpiAgent的14亿参数“基础模型”，把单细胞调控元件压缩成“细胞语句”，并在肿瘤内外源扰动与虚拟敲除上给出高精度推演——这不是简单的算法堆叠，而是把表观基因组从拼图式分析推进到可预测的“虚拟细胞”范式。你想知道这对你现有分析流程意味着什么？也许省下一年重复试验，或者彻底改变你的假设检验方向，真正关键的细节藏在哪一层词元化和预训练任务里？

— 内容由好学术AI分析文章内容生成，仅供参考。

近日，清华大学自动化系江瑞教授团队2025年9月发表于《自然·方法》（Nature Methods）的表观基因组研究成果“单细胞表观基因组基础模型——EpiAgent”（EpiAgent—foundationmodel for single-cell epigenomics），经过《基因组蛋白质组与生物信息学报》（Genomics, Proteomics & Bioinformatics, GPB）评审，入选2025年度“中国生物信息学十大进展”。

表观基因组是连接DNA序列与人体表型、解析致病机制的关键桥梁。江瑞团队建立了国际上首个单细胞表观基因组基础模型EpiAgent，原创性地将单个细胞的百万调控元件压缩为“细胞语句”，构建14亿参数的大模型统一解析复杂的基因调控规律。该模型通过独创的预训练任务，在涵盖500万细胞、350亿调控元件的自建超大规模人类染色质开放性图谱（Human-scATAC-Corpus）上完成训练。EpiAgent不仅使大规模表观基因组数据整合分析成为可能，更在肿瘤细胞中实现了内外源扰动响应与调控元件虚拟敲除的精准推演，从而全面开启了表观基因组虚拟细胞研究与应用的新范式。

清华大学自动化系江瑞团队表观基因组研究成果入选2025年度“中国生物信息学十大进展”