大型语言模型在通过医学考试方面表现出色,但在当前情况下,将它们用于诊断将是极其不负责任的。医疗聊天机器人往往在诊断过程中急于求成,未能遵循指导方针,并危及患者安全。由慕尼黑工业大学(TUM)的一组研究团队进行的一项研究评估了人工智能(AI)在日常临床使用中的适用性。尽管存在现有限制,研究人员承认这种技术的潜力。他们提出了一种方法来评估未来医疗聊天机器人的可靠性。
大型语言模型在医学考试中可能表现出色,但目前将其用于诊断被视为高度不负责任。医疗聊天机器人倾向于急于进行诊断,偏离既定指导方针,并对患者构成风险。慕尼黑工业大学(TUM)的一组研究团队系统地检验了将这种形式的人工智能(AI)纳入日常临床实践的可行性。尽管目前存在限制,研究人员认识到这项技术的前景。他们提出了一种评估即将推出的医疗聊天机器人可靠性的方法。
大型语言模型是经过大量文本训练的复杂计算机程序。ChatGPT背后的技术的特定定制版本现在能够在医学研究的期末考试中脱颖而出。但是,这种AI是否可以有效地在医疗紧急情况下取代医生?它能否准确下达测试指令、提供正确的诊断,并根据患者症状制定治疗计划?
一个由慕尼黑工业大学人工智能与医疗护理教授丹尼尔·鲁克特(Daniel Rückert)领导的跨学科团队在著名期刊《自然医学》(Nature Medicine)中探讨了这个问题。医生和AI专家首次联手,审查了开源大型语言模型Llama 2的不同版本在进行诊断方面的有效性。
模拟从急诊室到治疗的过程
为了评估这些复杂算法的能力,研究人员利用了来自美国一家诊所的匿名患者数据。他们从一个更大的数据集中选择了2400个病例,所有病例均涉及在急诊室就诊的腹痛患者。每个病例描述都以四个诊断之一和相应的治疗计划结束。提供了所有诊断数据,从病史和血液检查到影像学检查。
“我们以一种使算法能够模拟真实医院程序和决策过程的方式构建数据,”研究的主要作者、慕尼黑工业大学右岸医院放射科的助理医生弗里德里克·荣曼(Friederike Jungmann)解释道,与计算机科学家保罗·哈格(Paul Hager)共同完成了此项研究。“该程序只能访问真实医生能够获得的信息。例如,它必须独立决定是否下达血液测试的指令,并利用这些信息指导随后的决策,最终制定出诊断和治疗计划。”
团队发现,所有大型语言模型都未能始终恰当地请求所有所需的测试。事实上,程序的诊断准确性在病例信息增加时下降。它们经常偏离治疗协议,有时下达的测试可能对实际患者造成严重的健康后果。
与人类医生的比较
在研究的后期,研究人员将AI生成的诊断与四位医生提供的诊断进行了比较。人类医生的诊断准确率为89%,而表现最佳的大型语言模型仅达73%。每个模型在诊断不同病症方面的能力也有所不同。在一个严重的例子中,一个模型在只有13%的病例中准确诊断了胆囊炎。
另一个显著的缺点,使这些程序不适合常规使用,是其缺乏一致性:大型语言模型生成的诊断受接收信息顺序等因素的影响。此外,语言细微差别也会影响结果——例如,程序是被要求“主要诊断”、“初步诊断”还是“最终诊断”。在临床实践中,这些术语通常是可互换的。
未经过验证的ChatGPT使用
研究团队故意未测试OpenAI(ChatGPT)和Google的商业大型语言模型,主要有两个原因。首先,医院数据的提供者禁止使用这些模型,原因是数据保护问题。其次,专家强烈建议在医疗应用中仅使用开源软件。“部署开源模型使医院能够拥有足够的控制和知识,以确保患者安全。在进行评估时,理解用于这些模型的训练数据至关重要。公司通常会保护其训练数据,使无偏见的评估变得困难,”保罗·哈格表示。“此外,建立依赖于外部服务的关键医疗基础设施,随意更新和修改模型,存在风险。最坏的情况下,因盈利问题,一个对许多诊所至关重要的服务可能会停止运营。”
快速的技术进步
这项技术正在迅速发展。“可以想象,在不久的将来,一个大型语言模型可能在根据病史和检测结果推导出诊断方面表现出色,”丹尼尔·鲁克特教授评论道。“因此,我们已将我们的评估平台向所有有兴趣在临床环境中评估大型语言模型的研究小组开放。”鲁克特设想这项技术在帮助医生方面发挥重要作用,例如促进病例讨论。然而,用户在开发应用时,必须意识到技术的局限性和特性,”这位医疗AI专家强调道。