语言学和计算机科学的专家们已经确定了一些导致人工智能大型语言模型在模仿人类对话时表现不佳的关键原因。
在日常对话中,注意那些自然的时刻,以便让其他人参与进来。时机至关重要——如果有人在错误的时刻发言,他们可能显得过于激进、过于害羞或简单地显得尴尬。
对话中的思想交流具有社会层面,而虽然人类大多数时候能很好地管理这一点,但人工智能语言系统显著地在这方面存在困难。
塔夫茨大学的一组研究人员探讨了人工智能对话能力差距的根本原因,并提出了潜在的改进方案,以使其成为更好的对话者。
在口头互动中,人们通常会避免互相打断,采取轮流发言和倾听的方式。每位参与者会捕捉各种线索来识别语言学家所称的“转话相关地点”(TRPs)。这是在对话中一个人可以让当前发言者继续或轮到自己分享观点的常见点。
专注于心理学和计算机科学的JP de Ruiter提到,以前有一种长期的看法,即语言的“副语言”元素——如语调、重音、停顿和视觉信号——是TRPs的主要指示器。
“这有一点帮助,”de Ruiter解释道,“但如果你剥离掉词汇,仅呈现韵律——以袜子说话的节奏和旋律,大家就会很难识别TRPs。”
相反,如果你仅用单调的语音提供语言内容,研究参与者仍然可以识别出自然对话中很多相同的TRPs。
“我们意识到,进行对话时轮流发言的最关键信号是实际的语言内容。其他信号要少得多重要,”de Ruiter说。
人工智能擅长识别内容中的模式;然而,当de Ruiter、研究生穆罕默德·乌迈尔(Muhammad Umair)和研究助理教授瓦桑特·萨拉西(Vasanth Sarathy)用大型语言模型评估转录的对话时,人工智能识别TRPs的能力远不如人类。
这个限制产生的原因是,人工智能主要是在互联网上收集的书面文本上训练的,包括维基百科文章、在线论坛、企业网站和新闻文章,涵盖各种主题。然而,这个数据集缺乏大量转录的口语,这些口语通常是即兴的,使用简单语言和较短的句子,并且在结构上与书面内容有所不同。
由于人工智能没有“培养”出对话的能力,因此它在更有机的、更像人类的方式中参与对话时存在困难。
研究人员考虑到了一种可能性,即通过在更小的对话交换数据集上进行附加训练,从而完善主要在书面文本上训练的语言模型,以实现更加自然的对话。然而,他们发现,在实现类人对话能力方面仍然存在障碍。
他们还警告说,可能存在一个固有的限制,使得人工智能无法进行自然对话。“我们假设这些大型语言模型能够准确理解内容,但这可能并不成立,”萨拉西指出。“它们根据表面的统计模式预测下一个词,而轮流发言则需要在整个对话中有更深的上下文理解。”
“这些限制有可能通过用更大范围的自然口语数据集对大型语言模型进行预训练来解决,”专注于人机交互的乌迈尔在其博士研究中提到,并且是研究的主要作者。“虽然我们已经提供了一个新的训练数据集,以帮助人工智能在自然对话中识别讲话机会,但收集如此广泛的数据来训练当前的人工智能模型面临重大挑战。可用的对话音频或转录材料确实没有书面材料那么多。”