一个新开发的系统帮助人类事实核查员确认大型语言模型(LLMs)生成的响应的准确性。这个系统可以增强验证过程,使用户更快地发现AI模型中的错误,从而减少验证响应所需的时间20%。
尽管大型语言模型展示了卓越的能力,但它们并非没有缺陷。这些AI系统有时会生成虚假或不支持的信息,这种现象通常被称为“幻觉”。
由于这种幻觉问题,LLM的响应通常会经过人类事实核查员的验证,特别是在医疗保健或金融等关键领域。不幸的是,验证过程通常涉及审查模型引用的冗长文档,这可能是繁琐的,并且容易出错,可能会使用户不愿意使用生成性AI。
为帮助人类验证者,麻省理工学院的一个研究团队开发了一个直观的系统,名为SymGen,使用户可以更高效地验证LLM输出。这个工具使LLM能够生成包含引用的响应,直接指示源文档中相关部分,例如数据库中的特定单元格。
当用户将鼠标悬停在模型响应中的突出文本上时,他们可以查看用于特定单词或短语的数据。同时,未突出显示的部分则指示哪些短语需要额外的审查以进行验证。
“我们让用户能够有选择性地关注可能需要更多关注的文本部分。最终,SymGen通过使确认信息准确性变得更容易,增强了用户对模型响应的信心,”电气工程和计算机科学研究生及SymGen论文的共同首席作者Shannon Shen解释道。
在一项用户研究中,Shen和他的同事观察到,与传统方法相比,SymGen将验证速度提高了约20%。通过简化验证过程,SymGen可能帮助用户在各种实际应用中检测LLM输出中的不准确性,包括生成临床文档和总结金融市场报告。
Shen的研究工作由共同首席作者、同为EECS研究生的Lucas Torroba Hennigen、EECS研究生Aniruddha “Ani” Nrusimha、好数据倡议的主席Bernhard Gapp以及高级作者David Sontag(EECS教授、麻省理工学院Jameel Clinic成员和计算机科学与人工智能实验室(CSAIL)临床机器学习小组的领导者)和与CSAIL相关的EECS助理教授Yoon Kim共同参与。该研究在语言建模会议上进行了展示。
符号引用
许多LLM被构建为生成引用外部文档的引用,以便于验证。然而,Shen指出,这些验证方法往往在实施时没有考虑到用户需要消耗多少精力去审阅众多引用。
“生成性AI的目标是最小化用户在任务上花费的时间。如果你最终要花费数小时审查文档以确保模型输出的准确性,这些生成性响应的实用性就会降低,”Shen评论道。
研究人员通过专注于负责该任务的人类来应对验证挑战。
典型的SymGen用户首先向LLM提供参考数据,例如包含篮球比赛统计的表格。然后,研究人员引入一个中间步骤,而不是立即要求模型使用数据生成总结。他们提示模型以符号方式创建其响应。
在给定此提示时,模型通过具体说明与其响应相关的数据表中的单元格来引用数据。例如,如果模型打算提到“波特兰开拓者”,它会使用包含这些词的单元格名称,而不是直接陈述文本。
“这种中间符号表示法允许进行精确引用。我们可以准确定位输出中每段文本与数据中的对应位置,”Torroba Hennigen解释道。
SymGen随后使用基于规则的方法解析每个引用,从数据表中提取相应的文本并将其包含在模型的响应中。
“通过这种方法,我们确保引用是逐字复制的,显著降低了与实际数据对应的部分出现不准确的可能性,”Shen补充道。
简化验证
模型可以在利用其培训方式的同时生成符号响应。大型语言模型在大量互联网数据上进行训练,其中一些信息以“占位符格式”表示,代码代表特定值。
当SymGen提示模型生成符号响应时,它反映了这种结构化格式。
“我们有意设计提示以利用LLM的优势,”Shen说。
在用户测试中,大多数参与者表示SymGen简化了验证LLM生成文本的过程。他们能够比传统验证方法快约20%验证模型的响应。
然而,SymGen的效率受到源数据质量的限制。模型可能引用了错误的变量,导致人类验证者的疏漏。
此外,用户必须提供组织良好的源数据格式,例如表格,因为SymGen目前仅对表格数据有效。
展望未来,研究人员正在努力增强SymGen,以适应各种文本和数据类型。这一升级可能使其能够帮助验证AI生成的法律文档摘要的部分内容。例如,他们还计划与医疗专业人员评估SymGen,以探索它如何发现AI生成的临床摘要中的错误。