剑桥大学进行的一项研究发现,人工智能模型GPT-4在评估眼部问题和提供建议方面的表现优于非专业医生。研究显示,GPT-4的临床知识和推理能力几乎与眼科专家相当。该模型与不同职业级别的医生进行了测试,包括没有专业化的初级医生以及培训和专家眼科医生。每位参与者都被给予87个涉及特定眼部问题的患者场景,并被要求给出他们的评估。
在给出诊断或推荐治疗时,有四个选项可供选择。
在测试中,GPT-4的表现优于没有专业化的初级医生,他们的眼科专门知识水平与全科医生相同。
GPT-4的成绩与培训和专家眼科医生相似,尽管表现最佳的医生仍然得分更高。
根据研究人员的说法,大型语言模型不太可能取代医疗专业人员,但它们有潜力在临床工作流程中增强医疗服务。
研究建议可以在受控环境中使用人工智能,例如患者分诊,以提供与眼部相关的建议、诊断和管理推荐。研究的首席作者阿伦·提鲁纳瓦卡拉苏博士认为,人工智能可以帮助判断哪些眼部病例是需要立即专业关注的紧急情况,哪些可以由全科医生处理,哪些不需要治疗。这项研究是在提鲁纳瓦卡拉苏博士是剑桥大学临床医学学院的学生时进行的。
研究人员发现,GPT-4在解读眼睛症状和体征以回答更复杂的询问方面与专家临床医生的有效性相当。这表明,通过进一步的技术进步,大型语言模型可能会帮助那些在从眼科专家获得及时建议方面遇到困难的全科医生,尤其是因为英国人民在眼科护理方面经历了更长的等待时间。
这些模型的开发需要大量的临床文本进行微调,全球正在进行努力以促进这一过程。研究人员坚持认为,他们的研究比以往的研究更加先进,因为它直接比较了人工智能与执业医生的能力。
医生并不是在职业生涯中不断进行学习以备考试。研究旨在将人工智能与执业医生的实时知识和技能进行比较,以便做出公正评估,提鲁纳瓦卡拉苏博士解释说,他目前是牛津大学医院 NHS 基金会信托的学术基础医生。
他强调了理解商业可用模型的能力和局限性的重要性,因为患者可能已经依赖这些模型而不是互联网来获得指导。
检查涵盖了各种眼科问题,例如症状包括极端光敏感、视力下降、损伤,以及瘙痒和疼痛的眼睛,这些都是取自用来培训眼科医生的教科书。这本教科书在互联网上并不可自由获取,所以不太可能其内容被包含在GPT-4的训练数据集中。结果今天在期刊《PLOS数字健康》中发布。“即使考虑到未来使用人工智能,我相信医生仍将对患者护理负责。关键是要赋予患者决定他们是否希望计算机系统介入的权利。这将是一个个人决定。
“每位患者都必须做出自己的决定,”提鲁纳瓦卡拉苏博士说。
GPT-4和GPT-3.5,也被称为“生成预训练变换器”,已经在来自各种来源(如文章、书籍和互联网)的数百亿个单词的大型数据集上进行训练。这只是大型语言模型的两个例子,其他模型还包括Pathways语言模型2(PaLM 2)和大型语言模型Meta AI 2(LLaMA 2)。
在研究中,GPT-3.5、PaLM2和LLaMA均使用相同的一组问题进行测试。GPT-4提供的响应比它们中的任何一个都更准确。
GPT-4是在线聊天机器人ChatGPT背后的技术,ChatGPT能为人类查询提供定制的响应。近年来,该平台的使用显著增加,ChatGPT在医学领域因在医学院考试中达到一定表现水平而获得了重大关注,并且在对患者询问提供更准确和关怀的响应方面优于人类医生。
大型语言模型的人工智能领域正在迅速发展。自研究进行以来,已经推出了更先进的模型,这些模型可能与专家眼科医生更具可比性。