研究人员创造了一种技术,可以提高机器学习模型的可信度,这可能有助于提高 AI 在高风险环境(如医疗保健)中的预测准确性和可靠性。
医学成像中的模糊性可能给试图识别疾病的临床医生带来重大挑战。例如,在胸部 X 光片中,胸腔积液(肺部异常液体积聚)可能看起来与肺部浸润(脓液或血液积聚)非常相似。
人工智能模型可以通过帮助识别微妙的细节和提高诊断过程的效率来协助临床医生进行 X 光分析。但是,由于在一幅图像中可能存在许多条件,临床医生很可能希望考虑一组可能性,而不仅仅是评估一个 AI 预测。
一种有前景的生成可能性集的方法称为符合分类,这种方法便利,因为它可以方便地在现有的机器学习模型上实现。然而,它可能产生规模过大的可能性集合。
麻省理工学院的研究人员现在开发了一种简单有效的改进,可以将预测集的大小减少多达 30%,同时使预测更加可靠。
较小的预测集可能帮助临床医生更有效地确定正确的诊断,这可能改善和简化患者的治疗。该方法在一系列分类任务中都可能有用,例如用于识别野生动物公园中图像中动物的物种,因为它提供了更小但更准确的选项集。
“考虑的类别更少,预测集自然更具信息性,因为你是在选择更少的选项。从某种意义上说,你在信息量更大的东西上并没有真的牺牲准确性,”进行这项研究的康奈尔科技的博士后 Divya Shanmugam 表示,她在麻省理工学院攻读研究生时进行的这项研究。
与 Shanmugam 合作撰写论文的还有 Helen Lu ’24;Swami Sankaranarayanan,一位前麻省理工学院博士后,现在是 Lilia Biosciences 的研究科学家;以及资深作者 John Guttag,他是麻省理工学院计算机科学与电气工程的 Dugald C. Jackson 教授,也是麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的成员。这项研究将在 6 月的计算机视觉与模式识别会议上发表。
预测保证
为高风险任务(如在医学图像中分类疾病)部署的 AI 辅助工具通常设计为在每个预测中生成一个概率评分,以便用户可以评估模型的信心。例如,模型可能预测图像与特定诊断(如胸膜炎)相关的概率为 20%。
但信任模型的预测信心是困难的,因为许多先前的研究表明,这些概率可能不准确。通过符合分类,模型的预测被替换为一组最可能的诊断,同时保证正确的诊断在该组中。
但 AI 预测的固有不确定性通常导致模型输出过于庞大的集合,难以使用。
例如,如果模型将图像中的动物分类为 10,000 种潜在物种之一,它可能输出一个 200 个预测的集合,从而可以提供强有力的保证。
“对于某人来说,浏览这么多类别以找出正确的类别是相当多的,”Shanmugam 说。
该技术也可能不可靠,因为对输入的微小变化,例如稍微旋转图像,可能导致完全不同的预测集。
为了使符合分类更有用,研究人员应用了旨在提高计算机视觉模型准确性的技术,称为测试时增广 (TTA)。
TTA 创建数据集中单个图像的多个增广,可能通过裁剪图像、翻转图像、放大等方式。然后,它对同一图像的每个版本应用计算机视觉模型并聚合其预测。
“通过这种方式,你可以从单个示例中获得多个预测。以这种方式聚合预测提高了准确性和鲁棒性,”Shanmugam 解释道。
最大化准确性
为了应用 TTA,研究人员保留了一些用于符合分类过程的标记图像数据。他们学习如何聚合这些保留数据的增广,自动以最大化基础模型预测准确性的方式增广图像。
然后,他们在模型新的 TTA 转换预测上运行符合分类。符合分类器输出一组更小的可能预测,提供相同的信心保证。
“将测试时增广与符合预测结合起来,简单易行,实际有效,并且不需要重新训练模型,”Shanmugam 说。
与在多个标准图像分类基准上进行的符合预测先前工作相比,他们的 TTA 增强方法在实验中减少了 10% 到 30% 的预测集大小。
重要的是,该技术在保持概率保证的同时实现了预测集大小的减少。
研究人员还发现,尽管他们牺牲了一些通常用于符合分类程序的标记数据,但 TTA 提高的准确性足以抵消失去这些数据的成本。
“这引发了有关模型训练后如何使用标记数据的有趣问题。不同后训练步骤之间的标记数据分配是未来工作的一个重要方向,”Shanmugam 说。
未来,研究人员希望在分类文本而不是图像的模型背景下验证这种方法的有效性。为了进一步改善工作,研究人员还在考虑减少 TTA 所需计算量的方法。
这项研究部分由 Wistrom Corporation 资助。