最近的一项调查显示,ChatGPT-4目前无法有效读取急诊科入院的医疗记录,以评估受伤的滑板车和自行车骑乘者是否佩戴了头盔。未来,利用大型语言模型(LLM)自动分析医疗记录中的临床笔记可能成为可行的方法,从而可靠且高效地提取重要信息,以提升病人护理或研究。然而,哥伦比亚大学梅尔曼公共卫生学院的一项新研究披露,当使用ChatGPT-4进行此目的时,该LLM尚未能够生成可靠的结果。这些发现已发表在《JAMA Network Open》上。
该研究审查了2019年至2022年间54,569次因骑自行车、滑板车或其他类似设备受伤的患者的急诊科就诊记录。研究发现,AI LLM在匹配传统文本字符串搜索法所产生的识别头盔使用的结果方面表现不佳。只有在提示涵盖了字符串搜索所用的所有文本时,LLM的表现才算令人满意。此外,它在为期五天的连续试验中保持一致结果方面也遇到了挑战,表现出更擅长复制不准确而非正确信息的倾向。特别是,对于如“w/o helmet”(没有头盔)或“unhelmeted”(未佩戴头盔)这样的短语,它表现出困难,错误地指示患者佩戴了头盔。
电子病历包含大量医学相关数据,主要通过书写的临床笔记呈现,这些笔记被认为是非结构化数据。有效的阅读和检索这些笔记中的信息的方法将极大地促进研究。目前,可以通过简单的字符串匹配搜索或高级的人工智能方法如自然语言处理来提取临床笔记中的细节。希望新的LLM,如ChatGPT-4,能够更快、更可靠地检索这些信息。
“虽然我们认识到通过使用生成型AI LLM提取信息可能带来的生产力提升,但与可靠性和不准确性相关的挑战目前阻碍了其有效性。”哥伦比亚梅尔曼学院流行病学教授、主要作者之一安德鲁·伦德尔(Andrew Rundle)表示。“当我们创建包含所有与头盔相关的文本字符串的高度详细提示时,确实有实例表明ChatGPT-4成功从临床笔记中提取了准确数据。然而,设计和验证所有必要文本的广泛时间,加上ChatGPT-4无法在数日间重现一致结果,表明它目前并不适合此任务。”
该研究利用了美国消费者产品安全委员会的国家电子伤害监测系统的公开数据,涵盖了96家美国医院的样本。伦德尔及其团队评估了涉及电动自行车、自行车、滑板车和动力滑板车事故的患者的急诊科记录。他们将ChatGPT-4的分析结果与传统字符串搜索法得出的结果进行了对比。对于400条记录,他们还将ChatGPT的发现与他们对临床笔记的解释进行了比较。
这项研究扩展了他们关于预防微型出行用户(包括骑自行车者、电动自行车骑乘者和滑板车用户)受伤的研究。“头盔使用是决定伤害严重程度的关键因素;然而,在大多数急诊科医疗记录和事故报告中,关于头盔使用的具体细节往往隐藏在医生或EMS人员撰写的临床笔记中。迫切需要开展研究,以有效且可靠地获取这些信息,”论文的主要作者、梅尔曼学院流行病学系的博士后研究员凯瑟琳·巴福德(Kathryn Burford)解释道。
“我们的研究考察了LLM从临床笔记提取数据的能力,这些数据对医疗专业人员和研究者来说是宝贵的资源,”伦德尔表示。“然而,在我们与ChatGPT-4的研究时,它未能提供可靠的数据。”