人们根据之前的经验形成对大型语言模型(LLM)性能的看法。当一个人所信仰的内容与LLM的能力之间存在差距时,即使是一个高度熟练的模型在现实应用中也可能会出现问题。
大型语言模型(LLM)的一个关键优势在于其多功能性。同一个机器学习模型可以帮助研究生起草电子邮件,也可以帮助医生诊断癌症。
然而,这种广泛的适用性也给系统评估带来了挑战。创建一个基准数据集来评估模型在每一个可想到的问题上的表现显然是不可行的。
在一篇最近的论文中,麻省理工学院的研究人员提出了一种不同的策略。他们建议,由于人类决定何时使用大型语言模型,评估模型的表现必须考虑个体如何形成对其能力的信念。
例如,研究生需要判断模型是否可以帮助起草一封特定的电子邮件,而临床医生则必须评估哪些病例最能从咨询模型中受益。
基于这个概念,研究人员建立了一个评估LLM的框架,基于其与人类对特定任务表现的信念的一致性。
他们提出了一种人类推广函数,该函数模拟人们在与LLM互动后如何调整对其能力的信念。然后,研究人员评估了LLM与该函数的匹配程度。
他们的研究结果揭示,当模型与人类推广函数的匹配度不高时,用户可能会高估或低估模型的能力,从而可能导致意想不到的失败。有趣的是,由于这种不匹配,在关键情况下,更高级的模型可能表现得比简单模型更差。
“这些工具令人兴奋,因为它们具有多功能性,但我们必须考虑人类协作的方面,”研究的共同作者、经济学助理教授及信息与决策系统实验室(LIDS)的首席研究员阿谢什·兰巴查(Ashesh Rambachan)说。
兰巴查的团队还包括主作者凯翁·瓦法(Keyon Vafa),哈佛大学的博士后研究员,以及辛德赫尔·穆莱那坦(Sendhil Mullainathan),麻省理工学院电气工程、计算机科学和经济学教授,同时也是LIDS的成员。他们的研究将于国际机器学习大会上展示。
人类推广
在与他人互动的过程中,我们会形成对他们知识和能力的信念。例如,如果你的朋友经常纠正语法,你可能会假设他们在句子结构方面也很娴熟,即使你从未验证过这个想法。
“语言模型看起来可以非常人性化。我们旨在证明这种人类推广的原则适用于人们如何看待语言模型,”兰巴查说。
首先,研究人员定义了人类推广函数,该函数涵盖向他人或LLM提问、观察其回复,然后推断该人或模型可能如何回答相关问题的过程。
如果有人发现一个LLM能够准确回答关于矩阵逆的问题,他们可能会得出结论认为它也能处理简单的算术问题。如果模型未能与这一假设同步——意味着它在一个人期望它正确回答的问题上表现不佳——那么使用时可能会失败。
在确认这一定义后,研究人员创建了一项调查,以评估人们如何推广他们与LLM和其他人的经历。
调查参与者被展示出各种一个人或LLM答对或答错的问题,接着询问他们是否相信该人或LLM能够正确回答相关问题。这项调查产生了近19,000个实例的数据集,说明了人类对79个不同任务中LLM表现的推广。
评估不匹配
团队发现,参与者在预测一个答对问题的人是否会正确回答相关问题方面表现良好,但在推广LLM表现方面则更为挣扎。
“人类推广是运用于语言模型的,但由于LLM并不像人类那样展示专业知识模式,它们就会失败,”兰巴查解释道。
此外,人们在LLM给出错误答案后显示出更多倾向去修正他们的信念,而不是在其提供正确答案时。他们还认为LLM在简单问题上的表现对其在更复杂情景中的表现影响很小。
在那些给予错误答案更大重要性的情况下,简单模型的表现优于GPT-4等先进模型。
“更好的语言模型可能会误导用户认为它们在相关问题上会表现良好,而实际上可能并不如此,”兰巴查表示。
人们在推广LLM时所遇到的困难可能源于它们的相对新颖;与其他个体的互动相比,人们与LLM的经验要少得多。
“随着时间的推移,随着我们与语言模型的互动增多,我们可能会看到改善,”他补充道。
考虑到未来,研究人员计划开展更多关于人类对LLM能力信念随时间演变的互动研究。他们还计划探索如何将人类推广纳入LLM的发展中。
“当我们训练这些算法或根据人类反馈进行调整时,我们在测量性能时需要考虑人类推广函数,”他强调。
与此同时,研究人员希望他们的数据集能够作为基准,以检查LLM在与人类推广函数相关的表现如何,潜在地提高在现实世界应用中使用模型的有效性。
这项研究部分由哈佛数据科学倡议和芝加哥大学布斯商学院应用人工智能中心资助。