科研人员开发出RNA基础语言模型

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重
文章导读
RNA调控的复杂迷宫如何破解?中国科学家重磅推出LAMAR——全球首个RNA基础语言模型!中科院与南科大团队利用1500万条哺乳动物及病毒序列,通过深度神经网络预训练,精准预测剪接位点、翻译效率等关键指标,性能较现有模型提升7-8%。实测中成功鉴定新型病毒调控元件,预测准确率高达98.5%。开源工具已上线GitHub,为基因机制研究和RNA药物设计提供革命性新引擎,让精准医疗再进一步!
— 内容由好学术AI分析文章内容生成,仅供参考。

在真核生物中,RNA转录、剪接、翻译和降解等生物学过程受到顺式调控元件、RNA结构和反式作用因子的调控。解析RNA多层次调控,对研究基因表达分子机制和设计RNA药物具有重要意义。但是,由于调控复杂和数据量不足,构建RNA调控的预测模型面临挑战。

近日,中国科学院上海营养与健康研究所研究员张国庆联合南方科技大学讲席教授王泽峰团队,构建出基于深度神经网络的预训练模型,可微调预测pre-mRNA剪接位点、mRNA翻译效率、mRNA降解率和内部核糖体进入位点(IRES)等RNA调控相关的下游任务,揭示了RNA中调控元件的序列特征,鉴定出新型翻译调控元件,为探讨RNA调控机制和优化RNA生物医学应用提供了新工具和新思路。

研究团队设计并训练了基于多层transformer编码器架构的RNA语言模型LAMAR。研究下载处理约1500万条哺乳动物和病毒的基因和转录本序列,通过掩码学习进行无监督预训练,预先提取RNA序列特征;同时使用含有标签的数据集微调模型,实现RNA调控高效预测。

该研究测试了LAMAR模型在多个下游任务中的性能。在mRNA翻译效率和降解率预测任务中,LAMAR模型分别取得0.66和0.65的Spearman相关系数指标,相比最优基线模型提升7%和8%。在剪接位点预测任务中,LAMAR模型取得0.96的PR-AUC指标,与最优基线模型SpliceAI性能相当。

进一步,团队使用公开数据集微调模型预测病毒和真核IRES,取得0.985的AUROC指标。研究预测RNA病毒基因组中潜在的新IRES,并在多个细胞系中测试其中305条序列驱动环形RNA翻译的效率。研究发现序列的预测概率与翻译活性呈正相关,提示模型具有模拟筛选新型调控元件的能力。

9月24日,相关研究成果在线发表在《基因组生物学》(Genome Biology)上。研究工作得到国家重点研发计划、国家自然科学基金、中国科学院战略性先导科技专项(B类)等的支持。

目前,LAMAR模型已上传至Github(https://github.com/rnasys/LAMAR)供研究人员使用。

论文链接

科研人员开发出RNA基础语言模型

LAMAR模型架构及研究流程图

© 版权声明
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

暂无评论

none
暂无评论...