提升任意语言中AI生成代码的准确性

研究人员开发了一种更高效的方法来控制大型语言模型的输出，指导其生成遵循特定结构（如编程语言）并且保持无错误的文本。

程序员现在可以使用大型语言模型（LLMs）更快地生成计算机代码。然而，如果代码不遵循编程语言的规则并且不会导致计算机崩溃，这只是让程序员的生活变得更轻松而已。

一些方法可以确保LLMs遵循它们所生成的任何语言的规则，但这些方法中的许多要么扭曲模型的原意，要么在执行复杂任务时耗时过长不切实际。

麻省理工学院及其他地方的研究人员开发了一种新方法，自动引导LLM生成遵循相关语言规则的文本，例如特定的编程语言，并且也是无错误的。他们的方法允许LLM将精力分配到最有可能有效和准确的输出上，同时在过程中早早丢弃不太有前途的输出。这种概率方法提高了计算效率。

由于这些效率提升，研究人员的架构使得小型LLM在生成多个现实世界应用案例的准确和结构良好输出方面超越了更大型的模型，包括分子生物学和机器人技术。

从长远来看，这种新架构可能帮助非专业人士控制AI生成的内容。例如，它可能让商人仅通过自然语言提示来编写复杂的SQL数据库查询。

“这项工作对于研究以外的方面有影响。它可以通过确保AI生成的输出既有用又正确，来改善编程助手、AI驱动的数据分析和科学发现工具，”麻省理工学院研究生、该框架论文的共同第一作者João Loula说。

Loula与共同第一作者Benjamin LeBrun（米拉-魁北克人工智能研究所的研究助理）和Li Du（约翰霍普金斯大学的研究生）一起参与了论文的撰写；共同资深作者包括麻省理工学院脑与认知科学系的首席研究科学家和概率计算项目负责人Vikash Mansinghka ’05，MEng ’09，PhD ’09；耶鲁大学助理教授Alexander K. Lew SM ’20；苏黎世联邦理工学院的博士后Tim Vieira；以及麦吉尔大学副教授、Mila的加拿大CIFAR AI教授Timothy J. O’Donnell，他领导了国际团队；以及其他几位。该研究将于国际表征学习会议上发布。

执行结构和意义

控制LLMs生成的结构化文本的一种常见方法是检查整个输出，如一段计算机代码，以确保它有效并且可以无误地运行。如果不行，用户必须重新开始，从而增加计算资源的消耗。

另一方面，程序员也可以在过程中停止检查输出。虽然这样可以确保代码遵循编程语言并且结构有效，但逐步修正代码可能导致其偏离用户的原意，从而在长远中影响准确性。

“执行结构要比执行意义容易得多。我们可以快速检查某个东西是否符合正确的编程语言，但要检查其意义就必须执行代码。我们的工作也是关于处理这些不同类型信息的，”Loula说道。

研究人员的方法涉及将知识工程融入LLM，以引导其朝向最有前景的输出。这些输出更有可能遵循用户定义的结构约束，并具有用户意图的意义。

“我们并不是试图训练一个LLM去做这个。相反，我们是在工程化一些专家所拥有的知识，并将其与LLM的知识结合，这提供了一种与深度学习中看到的截然不同的扩展方法，”Mansinghka补充道。

他们使用了一种称为序列蒙特卡罗的方法，允许来自一个LLM的并行生成彼此竞争。模型动态分配资源给不同的并行计算线程，基于其输出的前景如何。

每个输出都被赋予一个权重，表示它在结构上有效且在语义上准确的可能性。在计算的每一步中，模型专注于那些权重更高的输出，抛弃其他输出。

从某种意义上说，这就像LLM身后有一个专家在监督，以确保其在每一步做出正确选择，同时保持整体目标。用户指定他们所期望的结构和意义，以及如何检查输出，然后研究人员的架构指导LLM完成剩下的工作。

“我们已经解决了困难的数学问题，因此对于您希望纳入的任何类型的约束，您都能获得适当的权重。最终，您会得到正确的答案，”Loula说。

提升小模型

为了测试他们的方法，他们将框架应用于LLMs，任务是生成四种类型的输出：Python代码、SQL数据库查询、分子结构以及机器人遵循的计划。

与现有方法相比，研究人员的方法在要求较少计算的同时，表现出更高的准确性。

例如，在Python代码生成方面，研究人员的架构使一个小型开源模型超越了一个专门的商用闭源模型，而后者的体积是前者的两倍多。

“我们非常兴奋，因为我们可以让这些小模型超出它们的能力，”Loula说。

接下来，研究人员希望使用他们的方法来控制生成文本的更大部分，而不是一次处理一小部分。他们还希望将他们的方法与学习结合，这样在控制模型生成输出时，它可以学习得更加准确。

从长远来看，该项目可能对非技术用户具有更广泛的应用。例如，它可以与自动数据建模的系统结合，用于查询生成数据库模型。

该方法还可以启用机器辅助的数据分析系统，使用户可以与准确建模数据和用户提问意义的软件进行对话，Mansinghka补充道。

“语言学的一个基本问题是，单词、短语和句子的意义如何可以建立在世界的模型上，考虑到意义和引用中不确定性和模糊性。LLMs预测可能的标记序列，并未解决这个问题。我们的论文表明，在狭窄的符号领域，从单词映射到基础意义的分布在技术上是可行的。这是朝着理解机器如何像我们一样与世界交流所需的认知科学、语言学和人工智能的更深层次问题迈出的一小步，”O’Donnell说。

这项研究部分由加拿大CIFAR AI主席项目和西格尔家庭基金会通过对麻省理工学院西格尔家庭智能探索的赠款资助。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

提升任意语言中AI生成代码的准确性

光子量子芯片让人工智能变得更智能和更环保

过时手机如何为智能城市提供动力并拯救海洋

光子在虚空中碰撞：量子模拟从无中创造光线