人工智能医生是医疗对话的未来吗？

研究人员开发了一种新方法来评估人工智能模型在与患者互动时做出临床决策的能力。他们的分析表明，尽管大型语言模型在通过考试形式的问题进行诊断时表现良好，但在解释对话记录时面临挑战。研究人员建议一系列指导方针，以增强人工智能工具的有效性，并确保它们在临床环境中实施之前能够与现实世界实践保持一致。

像ChatGPT这样的人工智能工具因能够帮助临床医生减轻工作负担，例如帮助患者分流、记录病史，甚至提供初步诊断而受到赞扬。

这些大型语言模型越来越多地被患者用来理解他们的症状和医学检验结果。

然而，尽管在标准化医学考试中表现良好，它们在反映日常临床互动的场景中到底有多有效？

来自哈佛医学院和斯坦福大学的研究新发现表明，它们并没有那么有效。

该研究刊登于1月2日的《自然医学》上，研究团队创建了一个评估框架，称为CRAFT-MD（医学测试的对话推理评估框架），并将其应用于四个大型语言模型，以评估它们在与实际患者互动的设置中的表现。

尽管所有四个模型在类似医学考试的问题上表现良好，但在模拟现实世界的对话时，它们的有效性显著下降。

这一发现突出了两个关键领域：迫切需要更现实的评估来准确确定人工智能模型在临床使用中的准备程度，以及需要改善其基于更真实互动的诊断能力，才能在临床部署之前进行提升。

研究团队认为，像CRAFT-MD这样的评估工具可以提供对人工智能模型在现实世界适用性的更精确评估，并帮助提升其临床表现。

“我们的研究揭示了一个有趣的悖论——这些人工智能模型在医学资格考试中表现卓越，但在典型的就诊动态中却出现失误，”研究的资深作者、哈佛医学院生物医学信息学助理教授Pranav Rajpurkar表示。“医学对话的流动性要求能够及时提问、整理碎片信息和分析症状，这带来了超出仅仅回答选择题的独特挑战。从标准化测试转变为这些自然讨论时，即使是最先进的人工智能模型的诊断精度也会显著下降。”

评估人工智能在现实世界表现的更好测试

目前，人工智能模型的性能评估是通过要求它们回答选择题的医学问题，这些问题通常基于医学毕业生的国家考试或住院医师的认证测试。

“这种方法假设所有相关信息以清晰简洁的方式呈现，通常使用简化诊断过程的医学术语，但现实生活要复杂得多，”研究的共同第一作者、哈佛医学院Rajpurkar实验室的博士生Shreya Johri解释道。“我们需要一个更准确反映现实复杂性的测试框架，从而更好地预测模型的实际表现。”

CRAFT-MD专为此类更现实的指标而设计。

CRAFT-MD通过评估大型语言模型收集有关症状、药物和家族病史的信息的能力，来模拟现实世界的互动，随后作出诊断。一个人工智能代理作为患者，以对话和自然的方式作回应，而另一人工智能代理则评估大型语言模型所做最终诊断的准确性。人类专家随后分析每次互动，以评估这些模型收集必要患者信息的能力、在面对碎片数据时的准确诊断能力，以及遵循提示的能力。

研究人员利用CRAFT-MD评估了四个人工智能模型——包括商用和开源模型——在2000个反映初级保健常见病症的临床场景中的表现，涵盖了12个医学专业。

所有模型都展现出局限性，特别是在进行临床对话和根据患者的输入进行推理方面。这一短板影响了它们全面记录病史和提供适当诊断的能力。例如，它们通常难以提出全面记录病史所需的重要问题，在数据收集过程中忽略了关键的信息，并且在整合不同信息片段方面存在困难。当呈现开放式信息时，这些模型的准确性下降，较选择题选项更为显著。此外，它们在动态的反复对话中（这种对话是现实世界交流的典型）表现不如结构化对话。

增强人工智能在现实世界有效性的建议

基于他们的发现，研究团队向人工智能模型的开发者和负责评估和批准这些系统的监管人员提出了若干建议。

这些建议包括：

在人工智能工具的设计、训练和测试中使用对话式的开放性问题，以更加准确地反映医患互动的非结构性特点
根据模型提出正确问题和收集必要信息的能力进行评估
创建能够跟踪多个对话并整合所收集信息的模型
设计能够结合文本数据（如对话记录）与非文本数据（如影像和心电图）的人工智能模型
开发能够理解面部表情、语调和身体语言等非语言交流的高级人工智能代理

此外，他们建议在评估过程中同时纳入人工智能代理和人类专家，因为单靠人类评估者可能会费时费力且成本高昂。CRAFT-MD显示出高效，处理10000次对话只需48到72小时，而人基于的方法需要近500小时的患者模拟和约650小时的专家评估。使用人工智能评估者作为主要方法还降低了将真实患者暴露于未经过测试的人工智能工具的风险。

研究人员预计CRAFT-MD将定期更新和优化，以纳入患者与人工智能互动的最新进展。

“作为一名医学科学家，我对能够有效且伦理地提升临床实践的人工智能模型感兴趣，”共同资深作者、斯坦福大学生物医学数据科学与皮肤科助理教授Roxana Daneshjou表示。“CRAFT-MD提供了一个与现实世界互动密切对齐的框架，从而提高我们在医疗保健中评估人工智能模型表现的能力。”

作者、资金、披露

其他作者包括来自哈佛医学院的Jaehwan Jeong和Hong-Yu Zhou；来自乔治敦大学的Benjamin A. Tran；来自西北大学的Daniel I. Schlessinger；来自加州大学洛杉矶分校的Shannon Wongvibulsin；以及来自斯坦福大学的Leandra A. Barnes、Zhuo Ran Cai和David Kim；最后是来自Dana-Farber癌症研究所的Eliezer M. Van Allen。

该工作得到了HMS院长创新奖的支持，以及微软加速基础模型研究的资助，该资助授予Pranav Rajpurkar，另外SJ还得到了IIE四方奖学金的支持。

Daneshjou披露了在提交的工作之外从DWA、辉瑞、欧莱雅、VisualDx获得的个人费用、从MDAlgorithms和Revea获得的股票期权，以及对TrueImage的待决专利。Schlessinger共同创办了FixMySkin Healing Balms，持有Appiell Inc.和K-Health的股份，并与包括Abbvie和Sanofi在内的多家公司进行咨询。Van Allen是Enara Bio和Manifold Bio等公司的顾问，持有多家公司的股权，并已申请机构专利。他还担任《科学进展》的编辑委员会成员。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

人工智能医生是医疗对话的未来吗？

协作可以在不牺牲自然资本的情况下推动澳大利亚的能源转型

呼吁设立护栏和教育以保护青少年AI用户

降低海运碳排放的廉价易行潜在解决方案