提高效率：将人工智能训练中的能源浪费减少多达30%

密歇根大学最近的一项研究表明，一种更高效的训练大型语言模型（如GPT系列模型）的方法可以在相同时间内完成训练，同时节省高达30%的能源。

根据富国银行对人工智能能源需求的预测，这种新方法到2026年可能节省足够的能源，以供美国约110万个家庭使用。此外，它可能有助于缓解国际货币基金组织的预测，即数据中心可能在2027年占全球二氧化碳排放的1.2%，以及该能源消耗相关的水资源使用。

一些专家认为，对环境的潜在好处可能超过这些成本。他们建议，人工智能可以通过优化供应链、管理能源需求和增强气候变化研究来显著帮助应对气候变化。然而，不必要的能源消耗仍然是一个关注点，特别是因为一些用于训练AI的能源对训练持续时间和模型准确性没有实际影响。

“当没有任何好处时，为什么要浪费任何东西？”密歇根大学计算机与工程系副教授、30届操作系统原理研讨会研究的主要作者Mosharaf Chowdhury问道。

“由于电力限制，我们不能不断建立更大的数据中心。通过减少AI使用的能源，我们可以降低其碳足迹和冷却需求，让我们能够在现有的能源限制下进行更多的计算。”

能源浪费源于GPU之间任务分配的不均衡，GPU是处理大量数据和图形任务的专用计算处理器。尽管这种分工是处理大规模数据集所必需的，但它可能导致效率低下。

“今天的AI模型如此庞大，以至于无法由单个计算处理器容纳，”密歇根大学计算机与工程系博士生、该研究主要作者Jae-Won Chung表示。“这些模型必须在成千上万个处理器之间分段训练，但实现完美的均分几乎是不可能的。”

在均匀分配训练任务的挑战在于需要将某些任务组合在同一处理器上，就像将书籍系列排列在书架上。根据任务的组织方式，一些处理器可能会比其他处理器承载更大的工作负载。

当前的训练技术使每个处理器都以最大容量运行，导致那些负载较轻的处理器比其他处理器更早完成任务。这种方法并没有加速训练过程，训练仅在所有处理器完成计算后结束—这只是导致能源浪费，因为更快的处理会消耗更多的电力。故障硬件或网络延迟等问题进一步导致能源浪费，因为它们妨碍了单个处理器的性能。

为了减少能源浪费，研究人员开发了一种名为Perseus的软件工具，识别出一个关键路径，或需要最长时间完成的子任务序列。然后，Perseus降低不在关键路径上的处理器的速度，确保它们大约在同一时间完成任务，从而最小化不必要的能源消耗。

“降低AI的能源成本可以显著影响AI技术的可及性，”Chowdhury评论道。“如果一个国家缺乏足够的电力来操作大型AI模型，它可能不得不依赖远程服务，或者受到限制使用较小、准确性较低的模型。这可能加剧不同社区之间的现有不平等。”

该团队通过在GPT-3、三个其他大型语言模型和一个计算机视觉模型上训练Perseus来评估其性能。

Perseus作为一个开源工具，在Zeus平台上提供，旨在评估和优化AI能源使用。

这项研究获得了多个来源的资金，包括国家科学基金会、荷兰研究委员会（NWO）的人才项目、VMware、Mozilla基金会、Salesforce和Kwanjeong教育基金会。该研究的计算资源由Chameleon Cloud和CloudLab提供。