确保准确性：人类监督在人工智能进步中的重要性

据研究人员称，最先进的人工智能系统，也称为大型语言模型（LLMs），在医疗编码方面的表现并不理想。研究强调了在将这些技术用于临床环境之前需要改进和验证这些技术。研究人员收集了来自Mount Sinai Health System一年常规护理的超过27,000种不同的诊断和程序代码的列表，并确保排除任何可识别的患者信息。然后，他们使用每个代码的描述来要求OpenAI、谷歌和Meta的模型生成最准确的医疗代码。模型生成的代码随后与原始代码进行了比较。位于Mount Sinai的Icahn医学院的研究人员发现，最先进的人工智能系统（LLMs）在医疗编码方面的表现并不理想。该研究发表在《新英格兰医学杂志人工智能》4月19日的在线期刊上，强调了在临床环境中使用这些技术之前，精炼和验证这些技术的重要性。研究分析了来自Mount Sinai Health System一年例行护理的超过27,000个独特诊断和程序代码的列表。

研究人员利用每个代码的描述来提示OpenAI、谷歌和Meta的模型生成最精准的医疗代码，同时确保不包含患者数据。然后将结果代码与原始代码进行了比较，并对任何错误进行了彻底的模式分析。

研究人员发现，所有研究的大型语言模型，例如GPT-4、GPT-3.5、Gemini-pro和Llama-2-70b，在准确重现原始医疗代码方面表现出有限的准确性（低于50%）。这突显了它们在医疗编码方面的显著不足。GPT-4表现出最高的性能，在测试的模型中达到了最高的精确匹配准确率：ICD-9-CM（45.9%）、ICD-10-CM（33.9%）和CPT代码（49.8%）。

GPT-4还具有生成虽然不正确但仍传达正确意义的代码的最高比率。例如，在提供ICD-9-CM描述“没有尿路阻塞的结节性前列腺”时，GPT-4生成了一个“结节性前列腺”的代码，体现了它对医学术语相对复杂的理解。然而，尽管这些技术上准确的代码仍然存在不可接受的错误数量。

表现次佳的模型GPT-3.5往往较为模糊。发现生成的不准确代码有很多是正确的，但比具体代码更一般。例如，当给出ICD-9-CM描述“未指明的麻醉不良反应”时，GPT-3.5生成了一个“其他指定不良反应，未分类”的代码。

“我们的研究强调了在医疗编码等敏感操作领域实施AI技术之前，彻底评估和改进的关键重要性，”研究的通讯作者、Icahn Mount Sinai数据驱动与数字医学（D3M）和医学（消化病学）助理教授Ali Soroush博士解释说。研究人员提醒，虽然AI具有巨大的潜力，但需要谨慎对待并持续发展，以确保其在医疗保健中的可靠性和有效性。研究者们提出的一个潜在用途是将这些模型应用于医疗代码的自动分配，以便为基于临床文本的报销和研究提供支持。之前的研究表明，较新的大型语言模型在数值任务方面存在困难，但在不同模型中从临床文本中分配医疗代码的准确性尚未得到彻底调查。

“所以，我们想看看这些模型能否准确地将医疗代码与其官方文本描述匹配，”D3M生成性AI研究项目主任、共同资深作者Eyal Klang博士说。

研究人员建议，将LLMs与专家知识结合起来，可以实现医疗代码提取的自动化，从而提高账单准确性并降低医疗保健中的行政成本。

“本研究突显了AI在医疗保健中的当前优势和局限性，强调了在实施之前仔细考虑和进一步改进的重要性。”共同资深作者、Icahn Mount Sinai医学教授Girish Nadkarni博士解释说，LLM技术的广泛应用至关重要。然而，研究人员承认，研究的人工任务可能不准确反映现实场景。研究团队的下一步是创建个性化的LLM工具，以实现精确的医疗数据提取和账单代码分配，以提高医疗保健操作的质量和效率。该研究的标题为“生成性大型语言模型”。题为“糟糕的医疗编码员：医学代码查询的基准分析”的文章由几位Icahn Mount Sinai的个人撰写，包括Benjamin S. Glicksberg、Eyal Zimlichman、Yiftach Barash、Robert Freeman和Alexander W. Charney。此外，AGA研究基金会2023年AGA-Amgen教师过渡奖AGA2023-32-06以及NIH UL1TR004419奖为此研究提供了额外支持。研究人员强调，研究是在没有使用任何受保护健康信息（“PHI”）的情况下，在最大诚信下进行的。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

确保准确性：人类监督在人工智能进步中的重要性

震惊的脑癌突破：电场强化免疫攻击

为美而燃：TikTok护肤趋势如何伤害年轻女孩

一种常见抗生素如何助长细菌抗药性