来自化学、生物学和医学的研究人员越来越多地转向AI模型以开发新的假设。然而,算法得出结论的依据以及这些结论可被推广的程度往往不明确。波恩大学的一项出版物现在警告在处理人工智能时可能产生的误解。同时,它强调了研究人员最有可能对模型有信心的条件。该研究现已发表在期刊 Cell Reports Physical Science。
来自化学、生物学和医学的研究人员越来越多地转向AI模型以开发新的假设。然而,算法得出结论的依据以及这些结论可被推广的程度往往不明确。波恩大学的一项出版物现在警告在处理人工智能时可能产生的误解。同时,它强调了研究人员最有可能对模型有信心的条件。该研究现已发表在期刊 Cell Reports Physical Science。
自适应机器学习算法功能强大。然而,它们也有一个缺点:机器学习模型如何得出预测,往往外界无法看出。
假设你给人工智能输入了几千辆汽车的照片。如果你现在给它一张新的图像,它通常可以可靠识别该图像是否显示了汽车。但这是为什么呢?它真的学会了汽车有四个轮子、一个挡风玻璃和一个排气管吗?还是它的决定基于一些实际上无关的标准 – 比如车顶上的天线?如果是这样的话,它也可以将收音机归类为汽车。
AI模型是黑箱
“AI模型是黑箱,”耶根·巴约拉教授强调。“因此,不应盲目相信它们的结果并从中得出结论。”这位计算化学专家负责拉马尔机器学习与人工智能研究所的生命科学AI部门。他还负责波恩-亚琛国际信息技术中心(b-it)生命科学信息学项目。在当前的出版物中,他研究了何时最有可能依赖这些算法的问提。反之亦然:何时不。
在这方面,“可解释性”的概念起着重要作用。比喻地说,这指的是AI研究中的努力,旨在为黑箱钻一个窥视孔。算法应揭示其作为基础使用的标准 – 比如四个轮子或天线。“打开黑箱目前是AI研究的一个核心主题,”巴约拉说。“一些AI模型专门开发以使其他模型的结果更易于理解。”
然而,可解释性只是一个方面 – 从模型选择的决策标准中可能得出什么结论同样重要。如果算法表明它基于天线作出决定,人类会立即知道这个特征不适合识别汽车。尽管如此,自适应模型通常用于识别大型数据集中的相关性,而这些人类可能无法察觉。我们就像外星人,不知道什么是汽车:外星人无法判断天线是否是一个好的标准。
化学语言模型建议新化合物
巴约拉强调:“在科学中使用AI程序时,我们始终必须问自己另一个问题:结果的可解释性如何?”化学语言模型目前是化学和制药研究中的一个热门话题。可以将它们输入具有某种生物活性的许多分子。基于这些输入数据,模型然后学习,并理想地建议一种新的分子,该分子也具有这种活性,但具有新的结构。这也被称为生成建模。然而,模型通常无法解释它为什么得出这个解决方案。通常需要随后应用可解释性AI方法。
尽管如此,巴约拉警告不要过度解释这些解释,即预期AI认为重要的特征确实会导致所需的活性。“目前的AI模型本质上对化学一无所知,”他说。“它们纯粹是统计和相关性,并关注任何区别特征,无论这些特征是否在化学或生物学上相关。”尽管如此,它们在其评估中可能是正确的 – 所以建议的分子可能具有所需的能力。然而,这些原因可能与我们基于化学知识或直觉所期望的完全不同。为了评估推动预测与相应自然过程结果之间特征的潜在因果关系,通常需要实验:研究人员必须合成并测试该分子以及AI认为重要的具有结构特征的其他分子。
合理性检查很重要
这些测试耗时且昂贵。因此,巴约拉警告不要在寻找科学上合理的因果关系时过度解释AI结果。在他看来,基于合理科学理论进行的合理性检查至关重要:可解释性AI建议的特征是否真的对所需的化学或生物特性负责?追求AI的建议是否值得?还是它很可能是一个伪影,一个随机识别的相关性,比如汽车天线,这对实际功能完全没有关联?
这位科学家强调,自适应算法的使用从根本上有可能在许多科学领域显著推动研究。然而,必须意识到这些方法的优势 – 特别是它们的局限性。