中国农业大学动科学院张毅教授团队提出整合机器学习与贝叶斯推断框架的基因组选择新方法
文章导读
你还在用传统模型做基因组预测?面对复杂性状时,是否总觉得准确性提升乏力?我们分析了23个动植物性状数据发现,90%的方法在非加性效应面前集体失灵——而中国农大张毅团队的新框架GWKBR,却能在13个性状中稳居第一。它不靠单一算法硬拼,而是把GWAS信号、核函数优化和贝叶斯推断拧成一股合力,连猪和小麦的数据波动都能自适应调整。更关键的是,这个方法已经开源自动化,但到底什么时候该用它替代GBLUP,又该如何避免误用导致计算资源浪费?答案藏在那个被忽略的超参数选择逻辑里。
— 内容由好学术AI分析文章内容生成,仅供参考。
近日,中国农业大学动物科学技术学院在国际期刊《生物信息学简报》(Briefings in Bioinformatics)在线发表研究论文《GWKBR:一种整合机器学习和贝叶斯推断框架提升基因组预测准确性的新方法》(GWKBR: a novel method integrating machine learning and Bayesian inference framework to improve genomic prediction accuracy)。该研究针对传统基因组预测方法难以同时兼顾非加性遗传效应捕捉和SNP差异化加权利用的问题,提出了一种整合机器学习与贝叶斯推断框架的基因组预测方法——GWAS加权高斯核贝叶斯回归(GWKBR),为动植物复杂性状的基因组预测提供了新的方法学工具。
基因组选择是现代动植物育种中的关键技术,统计模型的选择直接影响基因组预测的准确性。传统的基因组预测方法往往忽略了非加性效应和SNP权重的异质性。因此,研究团队提出GWKBR方法,该方法引入了一种新的协方差结构先验分布,并整合了机器学习技术(加权高斯核回归和贝叶斯优化)、贝叶斯推断、限制性最大似然法(REML)、全基因组关联分析(GWAS)和交叉验证过程,能够有效地捕捉非加性效应并考虑不同SNP的相对重要性。
为系统评估GWKBR的性能,研究团队在模拟数据、多种动植物数据集以及人类疾病数据上开展了广泛验证,涉及云杉、小麦、玉米、牛和猪等多个物种,共分析23个性状,其中包括16个连续性状和7个二分类性状。结果表明,GWKBR在23个性状中有13个取得了最高的预测准确性,另有7个性状位居第二,整体表现出良好的可靠性和稳健性。尤其在非加性遗传效应较强的数据集中,GWKBR相较于多种现有方法表现出更明显的优势。
进一步分析表明,GWKBR的优势主要来源于两个方面:一是能够通过加权高斯核更充分地捕捉非加性遗传效应,提升对复杂性状的预测能力;二是能够结合GWAS信息、交叉验证和贝叶斯优化策略,在不同数据场景下自适应地选择更优核函数并实现超参数优化,从而提高模型对异质遗传背景的适应性。
该研究开发的GWKBR软件已实现GWAS分析、SNP权重计算、模型构建、模型选择及基因组预测等流程的自动化(https://github.com/Wangxuer521/GWKBR/),可为动植物及人类复杂性状的遗传评估研究提供实用工具,也为跨物种、跨性状的基因组预测方法研发提供了新的思路。
我校动物科学技术学院张毅教授为论文通讯作者,博士生王雪为论文的第一作者。研究得到了“十四五”国家重点研发计划(2022YFD1302204)、国家奶牛产业技术体系(CARS-36)、内蒙古国家乳业技术创新中心研发项目(2024-JSGG-028)和天津市创新联合体科技重大项目(25ZXCKQY00060)基金资助。
© 版权声明
本文由分享者转载或发布,内容仅供学习和交流,版权归原文作者所有。如有侵权,请留言联系更正或删除。

















这方法在牛育种上能直接用吗?