研究人员探讨了GPT-4——一种先进的人工智能(AI)语言模型——在帮助医生诊断患者方面的有效性。
根据发表在JAMA Network Open上的一项研究,来自明尼苏达大学医学院、斯坦福大学、贝斯以色列女执事医疗中心和弗吉尼亚大学的一个团队调查了医生在患者诊断中如何利用大型AI语言模型GPT-4。
这项研究涉及50名在美国持证的医生,涵盖家庭医学、内科医学和急救医学。研究团队发现,将GPT-4作为诊断工具,与传统方法相比,并没有显著提升临床推理。其他重要发现包括:
- GPT-4单独使用时获得的诊断分数明显更高,超越了使用标准在线诊断资源的医疗专业人员和那些得到了GPT-4帮助的医生。
- 与使用传统诊断工具的临床医生相比,使用GPT-4的临床医生的诊断表现并没有显著提高。
明尼苏达大学医学院教授、M Health Fairview医院医师Andrew Olson,MD表示:“人工智能领域正在迅速发展,并在医疗保健内外影响着我们的生活。我们必须审视这些工具,并确定如何利用它们来改善患者护理和增强临床体验。这项研究表明,医生与AI在临床环境中合作的潜力还有待进一步发展。”
研究结果突显了将AI融入临床工作流程所面临的挑战。虽然GPT-4独立显示出令人鼓舞的结果,但作为诊断支持工具与医生并行使用时并没有提供显著优于传统诊断资源的优势。这表明了AI在医疗保健中的复杂潜力,进一步加强了对如何最优地辅助临床实践进行这些技术的研究的需求。此外,还需要更多的研究来确定临床医生如何有效地被训练以利用这些AI工具。
这四个合作机构建立了一个跨国AI评估网络,名为ARiSE,以进一步评估生成性AI在医疗保健中的输出。
本研究的资金由戈登和贝蒂·摩尔基金会支持。