研究人员开发了PhyloFrame,这是一种使用人工智能来考虑遗传数据中的祖先多样性的机器学习工具。
佛罗里达大学的研究人员正在填补医学遗传研究中的一个关键空白——确保它能够更好地代表和造福各个背景的人们。
他们的工作由Kiley Graim博士领导,Graim是计算机与信息科学与工程系的助理教授,专注于改善人类健康,解决遗传数据中的“祖先偏见”问题,这种问题在大多数研究依赖于来自单一祖先群体的数据时会出现。Graim表示,这种偏见限制了精准医学的进展,使全球人口中的大量人群在疾病治疗和预防方面得不到服务。
为了解决这个问题,团队开发了PhyloFrame,这是一种使用人工智能来考虑遗传数据中的祖先多样性的机器学习工具。在国家卫生研究院的资金支持下,目标是改善疾病的预测、诊断和治疗方式,使每一个人都能受益,无论他们的祖先如何。描述PhyloFrame方法及其在精准医学结果中显示显著改善的论文周一发表在《自然通讯》上。
Graim将关注遗传数据中的祖先偏见的灵感来源于与一位因研究对其多样化患者群体相关性有限而感到沮丧的医生的对话。这次接触使她探索AI如何帮助填补遗传研究中的空白。
“我心想,‘我可以解决这个问题,’”Graim说,她的研究集中在机器学习和精准医学上,并接受过种群基因组学的训练。“如果我们的训练数据与我们现实世界的数据不匹配,我们有方法通过机器学习来处理这个问题。它们并不完美,但可以在很大程度上解决这个问题。”
通过利用种群基因组学数据库gnomAD中的数据,PhyloFrame将健康人类基因组的大型数据库与用于训练精准医学模型的小型疾病特定数据集集成在一起。它创建的模型更能处理不同的遗传背景。例如,它可以预测乳腺癌等疾病亚型之间的差异,并为每位患者建议最佳治疗方案,无论患者的祖先如何。
处理如此庞大的数据量并非易事。团队利用佛罗里达大学的HiPerGator,这是美国最强大的超级计算机之一,分析来自数百万人的基因组信息。对于每个人,这意味着处理30亿个DNA碱基对。
“我没想到它的效果会这么好,”Graim说,并指出她的博士生Leslie Smith对这项研究做出了重大贡献。“最初只是一个小项目,使用简单模型来演示结合种群基因组学数据的影响,已经演变成获得资金来开发更复杂的模型,并且改进对人群的定义。”
PhyloFrame的独特之处在于通过考虑与祖先相关的遗传差异,确保预测在不同人群中保持准确。这至关重要,因为目前大多数模型都是基于未能充分代表全球人口的数据构建的。现有数据很大程度上来自于研究医院以及信任医疗系统的患者。这意味着小镇上的人群或那些不信任医疗系统的人经常被排除在外,这使得开发适合每个人的治疗方法变得更加困难。
她还估计,大约97%的测序样本来自欧洲血统的人,这主要是由于国家和州级别的资金和优先事项,也因不同层次上积累的社会经济因素——例如,保险影响人们是否能接受治疗,这又影响他们被测序的可能性。
“一些其他国家,尤其是中国和日本,最近正努力缩小这一差距,因此这些国家的数据比以前更多,但仍然无法与欧洲的数据相比,”她说。“贫困人群通常完全被排除在外。”
因此,Graim表示,训练数据的多样性是至关重要的。
“我们希望这些模型能适用于任何患者,而不仅仅是我们研究中的患者,”她说。“拥有多样化的训练数据会使模型对于欧洲人也更加有效。拥有种群基因组学数据有助于防止模型过拟合,这意味着它们对每个人,包括欧洲人,的效果会更好。”
Graim相信,像PhyloFrame这样的工具最终将在临床环境中使用,取代传统模型,以便根据个人的遗传构成制定个性化治疗计划。团队的下一步包括完善PhyloFrame并扩展其在更多疾病中的应用。
“我的梦想是通过这种机器学习方法帮助推进精准医学,使人们能在早期得到诊断,并用对他们具体有效且副作用最小的方法进行治疗,”她说。“将正确的治疗提供给正确的人、在正确的时间,这是我们努力的目标。”
Graim的项目获得了佛罗里达大学医学学院研究办公室的AI2 Datathon赠款的资金支持,该项目旨在帮助研究人员和临床医生利用AI工具改善人类健康。