一篇最近的文章强调,许多关于机器学习模型在解决特定方程表现有效性的期刊出版物往往呈现过于积极的观点。该研究的作者建议实施两项报告结果的准则,并倡导在研究社区内进行更广泛的变革,以促进发现的透明性和精确性。
围绕机器学习的兴奋,作为人工智能的一个子集,可能会产生一种印象,即这些工具很快将解决所有科学难题。尽管有许多惊人的主张,但它们并不总能经受住详细审查。虽然机器学习在某些领域显示出潜力,但在其他领域可能并不那么有效。
在最近发表在《自然机器智能》上的一项研究中,美国能源部普林斯顿等离子体物理实验室(PPPL)和普林斯顿大学的研究人员对机器学习方法与传统方法在处理流体相关的偏微分方程(PDE)时的研究进行了全面分析。这些方程在多个科学学科中至关重要,例如推动电力发电的聚变能所需的等离子体研究。
研究人员观察到,机器学习技术在解决流体相关的PDE与传统技术之间的比较常常偏向于机器学习。他们还注意到负面结果通常被低估。作为解决方案,他们提出了公平比较的准则,但认为文化变革是解决看似系统性问题的关键。
“我们的发现表明,尽管机器学习具有显著的潜力,但目前的文献呈现出其在解决这些特定方程方面过于乐观的观点,” PPPL计算科学副主任及该研究首席研究员阿马尔·哈基姆评论道。
针对弱基准评估结果
PDE在物理学中普遍存在,并在描述自然现象(例如热传递、流体动力学和波动现象)中发挥着重要作用。例如,PDE可以用来计算浸没在热汤中的勺子的温度分布。给定汤和勺子的初始温度以及勺子的材质,PDE可以在放入汤中后计算勺子上任何特定点的温度。这些方程在等离子体物理学中有着重要应用,因为许多控制等离子体的方程与流体方程共享数学性质。
科学家和工程师已经开发了多种解决PDE的策略,其中之一是数值方法,该方法通过数值计算寻求困难或无法解决问题的近似解,而不是符号分析。最近,研究人员开始调查机器学习解决这些PDE的能力,旨在比传统方法更快地获得解决方案。
审查表明,期刊文章中机器学习的成功常常被夸大。“我们的发现揭示了机器学习在解决流体相关的PDE时可能偶尔提供一些速度优势,但一般而言,数值方法更为高效,”论文的首席作者、普林斯顿等离子体物理项目的最近博士毕业生尼克·麦格里维解释道。
数值方法在精确度和解决问题所需时间之间必须权衡。“通常投入额外时间会提高准确性,”麦格里维指出。“许多文章在评估中未能考虑这一点。”
此外,速度在不同数值方法之间可能会大相径庭。麦格里维强调,要使机器学习技术有价值,它们必须超越最有效的数值方法。然而,他的研究发现,比较往往是与最慢的数值方法进行的。
公平比较的两个原则
为应对这些问题,该论文建议制定两条规则以使比较公平。第一条是将机器学习方法与具有相同精度或运行时间的数值方法进行对比。第二条是将机器学习方法与一种高效的数值方法进行对比。
在审查的82篇期刊文章中,有76篇报告称机器学习优于数值方法。研究人员发现,79%的那些将机器学习视为优越的论文依赖于弱基准,违反了至少一条建议的规则。相比之下,四篇文章声称其表现低于数值方法,而两篇报告了相似或不同的结果。
“很少有文章提到机器学习表现不佳,这不是因为它总是表现出色,而是因为研究人员很少发表其不如数值方法的发现,”麦格里维说。
他认为,基准标准低下通常受到学术界误导性激励的驱动。“对于文章接受,展示令人印象深刻的结果是有利的。这使得研究人员努力在其机器学习模型中追求最佳结果,这固然是好的。但是,如果所用基线方法效果不佳,也会导致有利的发现。因此,研究人员没有动力去改善他们的基线方法,这对其不利,”他解释道。因此,学者们可能会过于关注自己的模型,而忽视优化比较基线。
该研究还发现了报告偏见的迹象,如出版偏见,研究人员不愿意发表展示其机器学习模型表现不如数值模型的发现。结果报告偏见可能包括忽略负面结果或使用非标准成功指标来更有利地描绘机器学习模型。这些集体偏见往往低估负面发现,并促使公众产生机器学习在解决流体相关PDE方面表现优于实际的错觉。
“这个领域有相当大的炒作。我们希望我们的研究能够为利用机器学习推动该领域标准的原则性方法建立准则,”哈基姆表示。
为了应对这些根深蒂固的文化挑战,哈基姆认为资助机构和主要会议应实施规则,禁止弱比较或要求居民对所用基线方法及其选择依据进行详细解释。“他们应该鼓励研究人员对自己的发现保持怀疑态度,”哈基姆建议。“如果结果看起来过于乐观,那它们很可能就是。”
这项研究得到了能源部赠款DE-AC02-09CH11466和DE-AC02-09CH11466的支持。