我国科研团队开发新型AI算法,实现人类蛋白质重要性的预测分析

我国科研团队开发新型AI算法,实现人类蛋白质重要性的预测分析

近日,北京大学基础医学院崔庆华团队通过微调预训练的蛋白质语言模型,开发了一个基于序列的深度学习模型——蛋白质重要性计算器(Protein Importance CalculatorPIC),实现了人类蛋白必要性和重要性的综合预测和分析。相关研究成果1127日发表于《自然》子刊《自然计算科学》。

人类必需蛋白(Human essential proteinHEP)对于个体的生存和发育必不可少。然而,鉴定HEP的实验方法往往昂贵、耗时,例如CRISPR-Cas9基因敲除实验及基因过表达实验,且这些实验方法难以推广到人类全蛋白质组。因此,亟需计算方法来快速准确预测人类全部蛋白质的重要性,但现有的计算方法只能在人源细胞系水平预测HEP,而实际上,HEP在人类、细胞系和动物模型中存在高度差异性。这便要求科研人员在设计预测算法时,不仅需要提升算法的预测精度,还需要考虑蛋白质重要性存在的变异性。

近年来,深度学习和大语言模型技术的快速发展,为蛋白质重要性预测提供了新思路。崔庆华团队最新研究提出的PIC算法相较于此前最先进的计算方法DeepCellEss获得显著性能提升,受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)分别提升9.64%10.52%。除了具有优异的性能外,PIC算法是首个可以同时预测蛋白质在人体、人源细胞系和小鼠中的重要性评分的工具,能够为人类所有蛋白质的重要性进行综合的预测评估。在案例研究中, 研究团队使用PIC算法成功预测了人类乳腺癌中的关键蛋白质靶点,并证明了其作为乳腺癌患者预后标志物的价值。最后,研究团队使用PIC算法首次为617462种人类微蛋白(Human microproteins)的重要性进行了预测,这将为微蛋白的研究提供有力帮助。

© 版权声明

相关文章

学术会议云

暂无评论

none
暂无评论...