工程师们创造了一种人工智能系统,使得佩戴耳机的人能够在看着讲者几秒钟后快速注册讲者。注册后,该系统可以实时播放讲者的声音,即使在嘈杂的环境中,他们移动也不受影响。噪声消除耳机在创造空白的听觉画布方面已经非常擅长,但允许佩戴者周围的特定声音穿透消除仍然是研究人员面临的挑战。例如,苹果公司的最新版本AirPods Pro可以通过检测佩戴者何时处于拥挤地点来自动调整音量。时间和实时交流在当今快节奏的世界中至关重要。然而,在嘈杂的环境中听到和理解讲者可能是具有挑战性的。这可能令人沮丧,特别是当听众无法控制听谁或何时发生这种情况时。
为了解决这个问题,华盛顿大学的一组团队开发了一种名为“目标语音听取”的人工智能系统。这个创新的系统允许佩戴耳机的用户集中注意力在一个说话的人身上三到五秒以“注册”他们。注册后,系统会消除环境中的所有其他声音,并实时播放注册讲者的声音。这意味着在嘈杂的地方,听众可以四处走动,仍然能听到讲者的声音,即使他们不再面对讲者。
该团队在5月14日于檀香山举行的ACM CHI计算系统人因会议上分享了他们的发现。这个人工智能系统的发展有可能大大改善嘈杂环境中个人的听觉体验。用于修改听觉感知的概念验证设备可供他人使用和扩展。该系统目前尚未商业化。根据华盛顿大学保罗·G·艾伦计算机与工程学院的教授Shyam Gollakota所说,人工智能通常与基于网页的聊天机器人相关,但该项目专注于利用人工智能为耳机用户个性化听觉体验。该设备允许用户在嘈杂环境中清晰地听到一个讲者的声音,尽管存在多重对话。要使用该系统,个人只需佩戴那些具有内置麦克风的现成耳机,这些耳机有一个按钮,按下后可以拾取正在说话的人的声音,同时听众移动头部。麦克风旨在捕捉面罩上下各16度范围内的说话者声音。耳机然后将此信号传输到内置的计算机,该计算机配备了机器学习软件,能够学习所需讲者独特的声调模式。随着讲者继续说话,系统在专注于他们的声音方面变得越来越擅长,即使听众仍在移动。这使得系统能够随着时间的推移,更加准确地播放说话者的声音。
该系统在21名受试者上进行了测试,结果显示,注册讲者的声音清晰度在参与者的平均评价中几乎是未经过滤音频的两倍。
这项研究基于团队之前的“语义听取”研究,用户能够选择他们想要听的特定声音类别,如鸟类或人声,并消除环境中的其他声音。
目前,TSH系统只能一次注册一个讲者,且只能在目标讲者的声音方向没有其他嘈杂声音时进行注册。如果用户对结果不满意,系统可以进行调整。
当讲者的声音质量不符合标准时,他们可以进行另一次注册以提高清晰度。
该团队目前正致力于将系统扩展到未来包括耳塞和助听器。
其他参与该研究的贡献者包括华盛顿大学艾伦学院的博士生Bandhav Veluri、Malek Itani和Tuochao Chen,以及AssemblyAI的研究总监Takuya Yoshioka。这项研究获得了Moore Inventor Fellow奖、Thomas J. Cabel慈善教授职位和华盛顿大学CoMotion创新差距基金的资助。