解决人工智能驱动的基因组研究中的持续挑战

研究人员警告称，遗传学和医学中人工智能工具的兴起可能会导致关于基因与身体特征之间关系的错误结论，包括像糖尿病这样的疾病风险。

威斯康星大学麦迪逊分校的专家警告说，人工智能工具在遗传学和医学中的使用日益增加，可能会导致关于基因与身体特征之间关系的不正确结论，例如像糖尿病这样的疾病的风险因素。

这些错误的预测源于研究人员利用人工智能辅助全基因组关联研究的方式。这些研究分析大量人群中的遗传变异，以寻找基因与身体特征之间的关系，特别是与某些疾病相关的特征。

基因与疾病的复杂性

虽然遗传学对许多健康问题有贡献，但这种联系并非简单明了。一些基因变化与囊性纤维化等疾病的较高风险直接相关，而基因与其他特征之间的关系通常更复杂。

全基因组关联研究解开了这些复杂性，通常利用庞大的数据库，将基因组特征与健康信息结合在一起，例如国家卫生研究院的“All of Us”项目和英国生物银行。然而，这些数据库往往缺乏研究人员希望研究的健康状况的关键信息。

“某些特征的测量可能代价高昂或耗时，导致研究人员没有足够的样本来得出关于它们的遗传联系的显著统计结论，”威斯康星大学麦迪逊分校生物统计与医学信息学系副教授兼全基因组关联研究专家卢琼士（Qiongshi Lu）表示。

用人工智能填补数据空白的危险

为了规避这一挑战，研究人员越来越多地使用复杂的人工智能工具来填补数据空白。

卢琼士解释说：“近年来，利用机器学习的进展已变得相当普遍，促使研究人员开发出先进的人工智能模型，以便在数据有限的情况下预测复杂特征和疾病风险。”

卢及其同事强调，仅仅依赖这些模型而不解决可能产生的偏见的风险。他们的研究结果发表在《自然遗传学》期刊的一篇论文中，显示一种常用的机器学习算法在全基因组关联研究中可能错误地将各种遗传变异与个体发展2型糖尿病的可能性联系在一起。

“如果你错误地信任机器学习预测的糖尿病风险是准确的，你可能会得出所有这些遗传变异确实与糖尿病相关的结论，即使它们并不是，”卢警告说。

此外，这些“假阳性”不仅限于糖尿病风险的讨论，而是代表了人工智能辅助研究中的一种广泛偏见，卢指出。

减少假阳性的新的统计方法

除了识别由于过度依赖人工智能工具而产生的问题外，卢和他的同事还提出了一种新的统计方法，研究人员可以采用该方法来确保他们的人工智能支持的全基因组关联研究的可靠性。这种方法旨在消除机器学习算法在基于部分数据得出结论时可能引入的偏见。

卢表示：“这种新方法在统计上是最优的，”并补充说团队应用该方法更准确地识别个体的骨矿密度与遗传的关联。

人工智能不是某些全基因组关联研究中的唯一问题

虽然所提议的统计方法可以提高基于人工智能的研究的准确性，但卢和他的团队还发现，依靠类比信息来填补数据空白而不是依赖算法的类似研究也存在问题。

在另一篇发表在《自然遗传学》期刊上的论文中，研究人员提出了对过于依赖代理数据以建立基因与各种疾病之间联系的研究的关注。

例如，像英国生物银行这样的大型健康数据库拥有大量人口的遗传数据，但它们往往缺乏详细的信息，关于那些通常在晚年显现的疾病，如许多神经退行性疾病。

针对阿尔茨海默病，某些研究人员通过家庭健康历史调查收集的代理数据来解决这一缺口，参与者报告父母的阿尔茨海默病诊断。

威斯康星大学麦迪逊分校的团队发现，依赖这种代理信息的研究可能会产生“高度误导的遗传相关性”，将阿尔茨海默病的风险与增强的认知能力联系在一起。

卢解释说：“尽管基因组科学家现在经常与包含成千上万个个体的生物银行数据集进行工作，但统计能力的增加也放大了这些综合数据集中偏见和错误概率的风险。我们小组最近的研究提醒我们在生物银行规模的研究中需要统计严谨性的重要性。”