研究人员开发了一种深度学习算法,旨在预测稀有遗传变异的影响。这一技术使得更准确地识别高风险人群和帮助确定与疾病发展相关的基因成为可能。
我们对特定疾病的易感性主要由我们基因组中的众多变异决定。然而,理解在群体中出现频率较低的稀有遗传变异的影响一直是一个挑战。来自德国癌症研究中心(DKFZ)、欧洲分子生物实验室(EMBL)和慕尼黑工业大学的研究团队创造了一种聚焦于深度学习的算法,可以预测这些稀有遗传变异的影响。这一方法增强了区分高风险人群的能力,并帮助识别与疾病相关的基因。
每个人的基因组包含数百万种独特差异,称为变异,这些变异可以与特定生物特征和疾病相关联。这些联系通常通过全基因组关联研究进行探索。
然而,发生频率为0.1%或更低的稀有变异通常在这些研究中被忽视。“稀有变异可能对生物特征或疾病产生不成比例的大影响,”该研究的初始作者之一布赖恩·克拉克(Brian Clarke)说。“它们可能帮助我们发现导致疾病发展的基因,从而开辟新的治疗可能性,”共同第一作者艾娃·霍尔坎普(Eva Holtkamp)补充道。
为了增强对稀有变异影响的预测,DKFZ和EMBL的奥利弗·斯特格尔(Oliver Stegle)与布赖恩·克拉克(Brian Clarke)以及慕尼黑工业大学的朱利安·甘热尔(Julien Gagneur)领导的团队设计了一种以机器学习为动力的风险评估工具。这个被称为“DeepRVAT”(稀有变异关联测试)的特征性方法具有突破性,因为它使用人工智能(AI)来研究遗传关联,以解释稀有变异。
该模型最初使用来自英国生物样本库的161,000个个体的外显子序列数据进行训练。此外,它还包含有关这些个体的基因影响的生物特征的信息,以及与这些特征相关的基因。总的来说,训练涉及约1300万个变异,每个变异都有详细的“注释”,提供其对细胞功能或蛋白质结构潜在影响的定量见解;这些注释在训练过程中至关重要。
一旦训练完成,DeepRVAT可以预测每个个体可能受稀有变异影响的基因。该算法评估这些个体变异及其注释,生成一个数值,反映基因功能被妨碍的程度及其可能的健康后果。
研究人员使用来自英国生物样本库的基因组数据验证了DeepRVAT。它识别出352个与涉及34个测试特征(与疾病相关的血液检测结果)相关的基因。这一表现远远超过了之前所有建立的模型。DeepRVAT所产生的结果显示出显著的稳健性,并且与独立数据集的可重复性优于其他方法。
DeepRVAT的一个显著应用是评估对各种疾病的遗传易感性。研究人员将DeepRVAT与考虑更常见遗传变异的多基因风险评分相结合,极大地提高了预测准确性,特别是对于高风险变异。此外,DeepRVAT还揭示了多种疾病的遗传相关性,包括几种心血管疾病、癌症类型以及代谢和神经疾病,这些相关性此前的检测方法未能发现。
“DeepRVAT有潜力显著推动个性化医学的发展。我们的方法是多功能的,可以有效地与其他检测方法结合,”物理学家和数据科学家奥利弗·斯特格尔解释道。他的团队旨在在大规模试验中进一步评估这一风险评估工具,并加速其实施。科学家们目前正在与INFORM的组织者讨论,INFORM旨在利用遗传数据确定复发性癌症儿童的个性化治疗方案。DeepRVAT可以阐明导致特定儿童癌症的遗传因素。
“我对DeepRVAT在稀有疾病研究中的潜在影响感到特别兴奋。该领域的一个重大挑战是缺乏大规模、系统的数据。通过利用人工智能和英国生物样本库的50万个外显子,我们已经确定了哪些遗传变异对基因功能产生了最大影响,”慕尼黑工业大学的朱利安·甘热尔说。
展望未来,计划将DeepRVAT整合到德国人类基因组表型档案(GHGA)基础设施中,以促进其在诊断和基础研究中的应用。DeepRVAT的另一个优点是与类似模型相比,其对计算能力的要求相对较低。DeepRVAT作为用户友好的软件包提供,允许研究人员使用预训练模型或使用自己的数据集根据具体目标调整该工具。