研究人员发现,在从 X 光图像中预测种族和性别表现出色的人工智能模型也存在显著的“公平性差距”。这些差距是指在分析来自不同种族或性别群体的个体图像时,其诊断准确性存在的差异。
人工智能模型经常用于医学诊断,尤其是在图像分析(如 X 光)方面。然而,研究表明,这些模型在所有人口群体中的表现并不一致,通常在女性和有色人种身上的准确性较低。
有趣的是,在 2022 年,麻省理工学院的研究人员揭示,人工智能模型可以基于患者的胸部 X 光片准确预测其种族,而即使是经验最丰富的放射科医生在这一点上也感到困难。
这些研究人员现在发现了模型在人口预测中的准确性与其公平性差距之间的联系。这一关联表明,模型在诊断评估中可能依赖“人口捷径”,导致对女性、黑人和其他群体的结果不准确,这一点是研究人员所述。
麻省理工学院电气工程和计算机科学副教授、研究的高级作者 Marzyeh Ghassemi 强调了高容量机器学习模型预测人类人口统计特征的能力,并将这种能力与其在不同群体中的差异表现联系起来,这是该领域的新发现。
研究人员还发现,重新训练模型可以增强其公平性。然而,这一“去偏见”过程在模型在与其原本训练的相似患者群体(如来自同一家医院的群体)上测试时效果最佳。当这些模型被应用于来自不同医院数据集的患者时,公平性差距重新出现。
麻省理工学院研究生、论文的首席作者 Haoran Zhang 表示,在自己的数据上评估外部模型至关重要,因为模型开发者在其训练数据上提供的公平性保证可能不适用于其他人群。此外,当可用时,建议在本地数据上训练模型以获得最佳性能。
应对偏倚
截至 2024 年 5 月,FDA 已批准 882 种 AI 驱动的医疗设备,其中 671 种专门用于放射学应用。在 Ghassemi 和她的团队于 2022 年揭示模型能够从 X 光片预测种族之后,后续研究表明这些模型尽管缺乏特定的训练,仍然擅长预测性别和年龄。
Ghassemi 指出,许多机器学习模型具有人口预测的显著能力,超过放射科医生从胸部 X 光片中检测种族的能力。尽管在疾病预测方面表现出色,这些模型在训练过程中却无意中学会了预测意想不到的属性。
研究人员旨在调查这些模型为何在不同群体中表现出性能差异,特别是它们是否依赖人口线索进行预测,从而导致某些群体的准确性降低。这些捷径出现在模型利用人口因素识别医疗条件,而不是利用图像特征时。
通过利用波士顿贝斯以色列女执事医疗中心的公开胸部 X 光数据集,研究人员训练模型以预测特定医疗条件,然后评估其在保留的 X 光图像上的表现。
虽然模型总体表现良好,研究人员观察到公平性差距,表明性别和种族群体之间的准确性差异,大多数模型同样成功预测了 X 光受试者的性别、种族和年龄。值得注意的是,模型在进行人口预测时的准确性与其公平性差距的大小之间存在相关性,暗示模型可能依赖人口线索进行疾病预测。
为减少这些公平性差距,研究人员采用了两种策略:在一组模型中优化“子群鲁棒性”,在另一组中实施“群体对抗”方法以去除图像中的人口信息。这两种策略均取得了积极的成果。
Ghassemi 强调,最先进的方法可以有效减少公平性差距,而不影响整体性能,尤其是在应用于同一分布的数据时。子群鲁棒性增强对特定子群的敏感性,而群体对抗方法则完全消除群体信息。
公平面临的挑战
然而,这些方法仅在对与模型训练的患者群体相似的数据进行测试时有效,例如仅限于贝斯以色列女执事医疗中心的数据集。
在对来自五个其他医院数据集的患者群体进行评估时,研究人员观察到去偏见模型的整体准确性持续高,但某些模型存在显著的公平性差异。
Zhang 对在不同医院多样化患者群体中部署去偏见模型时缺乏可持续的公平性表示担忧,这是在利用不同来源的现成模型的医疗环境中常见的做法。
Ghassemi 强调,尽管模型在与其训练样本相似的数据上优化性能,但它们常常未能在新环境中在整体表现和子群表现之间保持平衡,反映了现实世界部署场景。研究人员目前正在探索其他方法,以提高模型在不同数据集中的公平性。
研究结果强调了医院在使用 AI 模型时评估其对当地患者群体的表现的重要性,以防止针对特定群体产生不准确的结果。
该研究获得了多个来源的资助,包括 Google 研究学者奖、罗伯特·伍德·约翰逊基金会哈罗德·阿莫斯医疗教师发展计划、RSNA 健康差异、拉库纳基金、戈登和贝蒂·摩尔基金会、国家生物医学成像和生物工程研究所、国家心脏、肺和血液研究所。