拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
技术革命性沟通:自动语音识别如何在嘈杂环境中与人类能力相匹配

革命性沟通:自动语音识别如何在嘈杂环境中与人类能力相匹配

 

谁在识别语言方面表现更好,人类还是机器?最近的一项研究表明,现代自动语音识别(ASR)系统在嘈杂环境中表现得相当出色,偶尔超越人类的能力。不过,这些系统需要在庞大的数据集上进行广泛的训练,而人类可以在更短的时间内发展出类似的技能。

近年来,自动语音识别(ASR)技术取得了显著的进展,特别是对于像英语这样拥有大量说话者的语言。在2020年之前,人们普遍认为人类在理解口语方面远远优于机器。然而,一些最新的ASR系统开始接近人类的准确性。这些系统的主要目标是降低错误率,而不管人类在类似环境中的表现,因为即使是人类在嘈杂的环境中也难以做到完美识别。

由UZH计算语言学专家Eleanor Chodroff和剑桥大学的同事Chloe Patman进行的一项最新研究评估了两个广泛使用的ASR系统:Meta的wav2vec 2.0和OpenAI的Whisper。他们评估了这些系统在有语音噪声(连续的背景噪声)或典型酒吧噪声中识别语音的有效性,并考虑了说话者是否佩戴棉质口罩的情景。

OpenAI的系统表现突出——只有一个例外

研究结果显示,人类在这两个ASR系统中仍然具有轻微的优势。然而,OpenAI最新的大型ASR模型Whisper large-v3在所有测试场景中超过了人类表现,唯独在自然酒吧噪声条件下与人类能力持平。这个成就突显了Whisper理解语音的声学特性并将其转化为预期信息(或句子)的能力。“这一点令人惊讶,因为所提供的句子缺乏上下文,使得根据之前的单词预测具体单词变得具有挑战性,”Eleanor Chodroff评论道。

广泛的训练要求

对这些ASR系统的深入检查揭示了人类的非凡能力。虽然这两种系统都利用深度学习,Whisper显示出最佳性能,但它需要庞大的训练数据。Meta的wav2vec 2.0使用了960小时(相当于40天)的英语音频进行训练,而标准的Whisper系统则使用超过75年的语音数据进行训练。超越人类表现的版本的训练数据惊人地达到了500年连续语音。“人类可以在短短几年的时间内达到类似的性能水平,”Chodroff指出。“然而,在几乎所有其他语言中,ASR面临显著挑战。”

多样的错误模式

研究还突出了人类和ASR系统所犯错误的不同类型。英语说话者始终产生语法正确的句子,但他们往往使用句子片段,而不是努力逐字抄写每一个单词。相反,wav2vec 2.0在艰难条件下偶尔会产生无意义的输出。尽管Whisper往往生成完整的语法句子,但它在填补空白时也更容易引入完全错误的信息。