研究人员考察在医疗环境中使用语音转文本技术时清晰发音的重要性。
语音转文本技术正越来越多地用于各种日常任务,包括免提听写、帮助视觉障碍人士,以及为听力困难的人生成转录。这些工具服务于多种目的,来自格但斯克科技大学的研究员Bożena Kostek正在研究如何在医疗行业中更有效地利用语音转文本(STT)。通过分析清晰发音对STT准确性的影响,她旨在增强其在医疗专业人士中的适用性。
“为患者信息记录自动化过程对医生和放射科医生至关重要,因为它使他们能够与患者共度更多优质时间,并增强数据采集,”Kostek解释道。
她还讨论了研究中面临的障碍。
“STT系统在医学术语方面常常遇到困难,尤其是波兰语,因为许多模型主要是使用英语数据训练的。此外,大多数资源只满足基本语言使用需求,而不涉及专业医学术语。医院中的嘈杂环境加剧了这一问题,因为医疗工作者可能由于压力或各种干扰而发音不清,”她补充道。
为了解决这些挑战,开发了一个完整的音频数据集,包含由心脏病学和肺病学等领域的医生和专家用波兰语清晰发音的医学术语。该数据集与自动语音识别(ASR)模型进行了分析,该模型将口语转化为书面文本。使用了包括词错误率和字符错误率在内的多种指标来评估语音识别过程的有效性。这一分析提供了对口语的清晰度和风格如何影响STT准确性的见解。
Kostek定于2024年11月21日星期四下午3点25分(东部时间)在虚拟的美国声学学会第187届会议上分享这些发现,该会议将于2024年11月18日至22日举行。
“医学术语可能很具挑战性,尤其是不同专业之间的缩写差异。当考虑到现实的医院场景时,这项任务变得更加复杂,因为房间的声学条件并未得到优化,”Kostek指出。
目前,研究集中在波兰语上,但有意将研究扩展到包括捷克语在内的其他语言。正在与布尔诺大学医院建立合作,以创建医学术语资源,目标是增强STT技术在医疗保健中的使用。
“虽然人工智能在许多情况下是有益的,但从分析的角度研究许多问题是必要的,而不是采取广泛的方法,强调整体图像的各个元素之间的划分。”