听取被诊断为帕金森病的个体的声音,使自动语音识别系统的准确性提高了30%,这一发现来自于最近的一项研究。
在分析数据以进行最新研究时,马克·长谷川-约翰逊意外发现了一个令人愉快的惊喜——一份水波蛋的食谱。他指出,筛选数百小时的语音录音往往会带来意想不到的宝藏。
长谷川-约翰逊负责“语音无障碍项目”,这是伊利诺伊大学厄本那-香槟分校的一项倡议,旨在改善语音识别技术,以帮助有语言障碍的个体。
在该项目的首次研究中,研究人员要求自动语音识别系统聆听151小时(接近六个半天)来自因帕金森病而导致的语言障碍个体的音频。他们的模型表现出了比控制模型(未经过类似帕金森患者的语音模式训练)高出30%的转录准确性。
这项研究已发表在《语音、语言和听力研究杂志》上。在研究过程中收集的语音录音对研究人员、非营利组织和寻求改善其语音识别系统的科技公司开放。
“我们的研究结果表明,一套全面的非典型语音数据库可以显著改善残疾人士的语音技术,”长谷川-约翰逊表示,他同时也是伊利诺伊大学电气与计算机工程的教授以及该大学贝克曼先进科学与技术研究所的研究员,该倡议在此基础上开展。“我期待看到其他组织如何利用这些数据来使语音识别技术更加包容。”
智能手机和虚拟助手等设备依靠自动语音识别来解释口语,使用户能够创建播放列表、发送免提信息、参与虚拟会议,以及与朋友和家人有效沟通。
然而,语音识别技术常常难以理解每个人,特别是那些遭受神经运动障碍(如帕金森病)的患者,这可能导致各种语言挑战——统称为构音障碍,表现为紧张、含糊或不协调的言语声音。
“这种不幸的现实意味着,许多最能从语音控制设备中受益的个体可能发现它们是最难以有效使用的,”长谷川-约翰逊解释道。
“现有研究表明,对特定个体的声音进行自动语音识别系统(ASR)的训练可以提高理解能力。我们想知道:我们能否通过向一小组相似的说话人展示训练,使自动语音识别系统解读由帕金森病引起的构音障碍个体的言语?”
长谷川-约翰逊和他的团队收集了约250名患有不同类型帕金森病相关构音障碍的成年人。在参与之前,潜在的受试者由语言病理学家评估其资格。
“一些面对交流障碍长时间的人,特别是渐进性的,可能会从日常对话中退缩,”项目中的语言病理学家克拉里昂·门德斯表示。“他们可能会因认为自己的有效沟通能力受到很大影响而感到沮丧,从而不愿分享自己的想法和观点。”
“我们希望帮助的正是这些个体,”她补充道。
被选中的参与者使用个人电脑和智能手机录制自己的声音。他们可以按照自己的节奏进行,也可以在需要时请求护理人员的帮助,重复常见的语音命令,如“设置闹钟”,朗读书籍摘录,或回答开放式提示,例如“描述如何为四个人做早餐。”
其中一位参与者详细说明了准备水波蛋的过程,并附上荷兰酱,另一个则建议直接点外卖。
“我们收到了许多参与者的反馈,他们觉得这个体验很愉快,并表示这增强了他们与家人交流的信心,”门德斯报告道。“这项倡议在许多参与者及其所爱的人中激发了希望、兴奋和活力——这些都是根本上体现人性的品质。”
她提到,团队与帕金森病专家及社区成员合作,为参与者设计相关内容。这些提示旨在反映日常生活:例如,将药物名称添加到训练数据中可以改善与药房的沟通,而随意对话的提示则模拟日常聊天。
“我们告知参与者,尽管他们可以通过付出相当大的努力来澄清自己的言语,但为了他人的理解,他们可能会感到疲惫。我们鼓励他们放松,并像在沙发上与家人随意聊天那样交流,”门德斯说。
为了评估语音算法在理解和学习方面的有效性,研究人员将录音分为三个部分。第一部分包含190名参与者或151小时的录音,作为训练模型的材料。随着模型的改进,研究人员通过向其提供第二个较小的录音集,验证模型是否真实学习(而不是仅仅记忆回应)。当模型在第二集上表现出色时,接着使用第三个测试集进行评估。
研究团队为每位参与者手动转录了约400个录音,以确保模型的准确性。
在对初始数据集进行了训练后,自动语音识别系统对测试集录音的词错误率为23.69%。相比之下,从没有帕金森病个体的录音中训练出的模型的词错误率为36.3%——这表明其准确性低了大约30%。
测试集中的几乎所有个体的错误率都下降了。即便是与帕金森病相关的非典型语音模式,如异常快速的言语或口吃,也显示出轻微的改善。
“我很高兴看到如此显著的益处,”长谷川-约翰逊评论道。
他的兴奋感得到了参与者反馈的进一步支持:
“我曾与一位参与者交谈,他对这项技术的未来充满热情,”他指出。“这是这个项目的非凡之处:看到个人对他们的智能设备和智能手机能够更好地理解他们的潜力充满希望。这正是我们的目标。”