研究人员创建了一种新的人工智能去偏见技术,旨在提高机器学习模型的公平性。该方法专门提升了训练数据集中代表性不足的子群体的表现,确保整体准确性得以保持。
机器学习模型在预测未在其训练数据集中得到充分代表的个体的结果时,往往会遇到问题。
例如,如果一个模型主要基于男性患者的数据来确定一种慢性病的最有效治疗方法,那么在临床环境中,它可能难以为女性患者做出准确的预测。
为了解决这个问题,工程师有时会试图通过消除数据点来平衡训练数据集,以便所有子群体得到同等代表。然而,这种平衡行为往往需要删除大量数据,可能会对模型的整体有效性产生负面影响。
麻省理工学院的研究人员开发了一种新技术,该技术能够识别并消除训练数据集中导致模型在少数族裔子群体上表现不佳的特定数据点。通过删除的数据信息少于传统方法,这种技术能够在保持模型整体准确性的同时,提升其在代表性不足群体中的表现。
该技术还有可能发现缺乏标签的训练数据集中隐藏的偏见,因为在各种应用中,无标签数据的出现比有标签数据更加普遍。
此外,此方法可以与其他策略结合,以增强机器学习模型的公平性,特别是在关键场景中使用的模型。例如,它最终可能有助于防止由于偏见的人工智能模型造成的对代表性不足患者的误诊。
“许多现有算法在处理这个问题时假设每个数据点的权重相等。我们的研究表明,这一假设并不准确。我们数据集中的特定数据点正是造成偏见的原因,我们可以指出,移除这些数据点以增强性能。”麻省理工学院电气工程与计算机科学研究生、该研究论文的共同第一作者Kimia Hamidieh表示。
她与其他共同第一作者Saachi Jain(正在攻读博士学位)和Kristian Georgiev(另一名电气工程与计算机科学研究生)、麻省理工学院前学生Andrew Ilyas(现为斯坦福大学的Stein Fellow)、以及高级作者Marzyeh Ghassemi(电气工程与计算机科学副教授,医学工程科学研究所和信息与决策系统实验室成员)和Aleksander Madry(麻省理工学院Cadence Design Systems教授)共同撰写了该论文。他们的发现将在神经信息处理系统会议上展示。
消除无效样本
机器学习模型通常依赖于从各种在线来源收集的大型数据集。这些数据集可能过于庞大,无法进行有效的人工整理,导致包含无效样本,阻碍模型表现。
科学家们知道,在特定任务中,某些数据点对模型性能的影响要比其他数据点显著得多。
麻省理工学院团队结合这些概念,创建了一种方法,用于识别和删除这些有害样本。他们旨在解决一种称为“最差群体错误”的问题,即模型在训练数据集中的少数群体上的表现不佳。
这种新技术基于之前的工作,团队引入了一种名为TRAK的方法,该方法识别与特定模型输出相关的最重要的训练示例。
对于当前的方法,他们关注模型对少数群体的错误预测,并利用TRAK辨别哪些训练示例主要影响了这些错误预测。
“通过系统地从不良测试预测中收集这些信息,我们可以识别出削弱模型在少数群体上整体表现的特定训练组成部分。”Ilyas解释道。
随后,他们删除这些特定示例,并使用剩余的数据重新训练模型。
由于更多数据通常会导致整体表现改善,选择性地删除导致少数群体结果不佳的样本有助于保留模型的总体准确性,同时也提升了其对这些子群体的表现。
更简单的方法
在三个机器学习数据集中,该方法超越了多种其他技术。在一个例子中,团队在丢弃大约20,000个训练样本的情况下,提高了表现最差的子群体的准确性,且所丢弃的数量少于传统平衡方法。与需要改变模型内部功能的方法相比,他们的技术也实现了更高的准确性。
由于麻省理工学院的方法修改的是数据集而不是模型本身,因此对从业人员来说更为友好,可以适用于各种模型类型。
即使偏见没有明确定义时,该方法也适用,尤其是当训练数据集中的子群体没有标签时。团队可以识别出显著影响模型学习特定特征的数据点,从而提供关于其预测背后变量的见解。
“这是任何从事机器学习项目的人的工具。他们可以分析这些数据点,并评估它们是否与他们希望在模型中灌输的能力相符,”Hamidieh强调道。
利用这一技术揭示未知的子群体偏见将需要对待考察潜在群体的洞察;因此,研究人员旨在通过未来的人类研究来验证和进一步调查这一点。
他们还希望增强其技术的性能和可靠性,并确保其保持可访问性和用户友好性,以便于可能在现实世界中实施的从业人员使用。
“拥有能够对数据进行关键评估并帮助识别可能导致偏见或其他不想要的效果的数据点的工具,是构建更公平、更可靠模型的重要一步。”Ilyas总结道。
这项研究部分由国家科学基金会和美国国防高级研究计划局资助。