美国科研人员开发蛋白质对称性预测模型,每小时处理8万个蛋白质
近日,美国微软、华盛顿大学和麻省理工大学的科研人员开发出一种蛋白质对称性预测模型。该模型基于ESM2微调,仅需单条蛋白质序列输入,每小时可处理约80000个蛋白质,准确率远超现有方法,尤其在预测复杂对称类型方面优势明显。该模型还能与AlphaFold2-multimer结合提高计算效率,为蛋白质研究提供了强大工具。相关研究成果2月27日发表于《自然·通讯》。
目前,蛋白质数据库中的寡聚体状态注释主要依赖PISA算法的预测,并由研究人员补充。尽管PISA被认为具有较高的准确性,但需要依赖实验确定的结构来提取组装信息,并推断最可能的寡聚体状态。近期,随着AlphaFold和RoseTTAFold等蛋白质结构预测方法的发展,已能在蛋白组水平上预测同源二聚体,甚至在某些情况下预测更高级的寡聚体组装。然而,使用这些方法进行寡聚体状态预测面临显著计算挑战,且通常仅限于具有高质量多序列比对(MSA)的蛋白质。对此,研究团队通过微调多种蛋白质基础模型(pFMs),包括ESM2、ESM-MSA和 RoseTTAFold2,开发了一种能够准确预测同源寡聚体对称性的新方法。其中表现最佳的模型名为Seq2Symm,它利用ESM2模型,仅需一条蛋白质序列作为输入,就能在三个独立测试集上实现平均0.47、0.44和0.49的PR曲线下面积(AUC-PR),远超基于模板的搜索方法(平均AUC-PR仅为0.24、0.24和0.25)。Seq2Symm采用了一种简单而高效的架构:以蛋白质的氨基酸序列作为输入,通过ESM2这一蛋白质基础模型进行处理,再通过一个分类器头部模块预测蛋白质可能形成的对称结构。研究人员尝试了多种分类器头部架构,最终确定使用 RoBERTa 语言建模头并配合边际损失函数的方案表现最佳。模型的输出可以直接用于引导AlphaFold2-multimer 等结构预测算法,生成原子精度的同源寡聚体结构模型。研究人员对不同方法进行了全面评估,结果显示Seq2Symm在各个测试集上均明显优于其他方法。Seq2Symm的一个显著优势是其预测速度,可达约每小时80000个蛋白质。此外,将Seq2Symm与AlphaFold2-multimer结合使用,能够绕过传统的穷举搜索方法,直接预测单一的同源寡聚体结构。这种方法在计算效率上提供了显著优势,处理一个C5对称蛋白质的时间大幅减少。
尽管Seq2Symm在预测同源寡聚体对称性方面取得了显著进展,但仍面临模型在预测概率为0.5-0.7的混淆区域内错误率高,以及数据集中标签噪声等挑战。即便如此,Seq2Symm当前已能加速同源寡聚体结构模型构建和蛋白组规模的对称群注释,为蛋白质研究领域提供了宝贵工具,将在蛋白组学研究和跨物种比较分析中发挥重要作用。
© 版权声明
本文由分享者转载或发布,内容仅供学习和交流,版权归原文作者所有。如有侵权,请留言联系更正或删除。
相关文章
暂无评论...