革命性沟通：自动语音识别如何在嘈杂环境中与人类能力相匹配

谁在识别语言方面表现更好，人类还是机器？最近的一项研究表明，现代自动语音识别（ASR）系统在嘈杂环境中表现得相当出色，偶尔超越人类的能力。不过，这些系统需要在庞大的数据集上进行广泛的训练，而人类可以在更短的时间内发展出类似的技能。

近年来，自动语音识别（ASR）技术取得了显著的进展，特别是对于像英语这样拥有大量说话者的语言。在2020年之前，人们普遍认为人类在理解口语方面远远优于机器。然而，一些最新的ASR系统开始接近人类的准确性。这些系统的主要目标是降低错误率，而不管人类在类似环境中的表现，因为即使是人类在嘈杂的环境中也难以做到完美识别。

由UZH计算语言学专家Eleanor Chodroff和剑桥大学的同事Chloe Patman进行的一项最新研究评估了两个广泛使用的ASR系统：Meta的wav2vec 2.0和OpenAI的Whisper。他们评估了这些系统在有语音噪声（连续的背景噪声）或典型酒吧噪声中识别语音的有效性，并考虑了说话者是否佩戴棉质口罩的情景。

OpenAI的系统表现突出——只有一个例外

研究结果显示，人类在这两个ASR系统中仍然具有轻微的优势。然而，OpenAI最新的大型ASR模型Whisper large-v3在所有测试场景中超过了人类表现，唯独在自然酒吧噪声条件下与人类能力持平。这个成就突显了Whisper理解语音的声学特性并将其转化为预期信息（或句子）的能力。“这一点令人惊讶，因为所提供的句子缺乏上下文，使得根据之前的单词预测具体单词变得具有挑战性，”Eleanor Chodroff评论道。

广泛的训练要求

对这些ASR系统的深入检查揭示了人类的非凡能力。虽然这两种系统都利用深度学习，Whisper显示出最佳性能，但它需要庞大的训练数据。Meta的wav2vec 2.0使用了960小时（相当于40天）的英语音频进行训练，而标准的Whisper系统则使用超过75年的语音数据进行训练。超越人类表现的版本的训练数据惊人地达到了500年连续语音。“人类可以在短短几年的时间内达到类似的性能水平，”Chodroff指出。“然而，在几乎所有其他语言中，ASR面临显著挑战。”

多样的错误模式

研究还突出了人类和ASR系统所犯错误的不同类型。英语说话者始终产生语法正确的句子，但他们往往使用句子片段，而不是努力逐字抄写每一个单词。相反，wav2vec 2.0在艰难条件下偶尔会产生无意义的输出。尽管Whisper往往生成完整的语法句子，但它在填补空白时也更容易引入完全错误的信息。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

革命性沟通：自动语音识别如何在嘈杂环境中与人类能力相匹配

光子量子芯片让人工智能变得更智能和更环保

过时手机如何为智能城市提供动力并拯救海洋

光子在虚空中碰撞：量子模拟从无中创造光线