拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
技术提升语言模型:语言代理在经济有效思维中的角色

提升语言模型:语言代理在经济有效思维中的角色

研究人员创建了一种旨在增强大型语言模型(LLM)认知能力的代理程序。
在科技行业中,越来越普遍的LLM并不便宜。例如,构建像GPT-4这样的知名LLM大约花费了1亿美元,这其中包括与训练数据相关的法律费用、处理数十亿或数万亿参数所需的计算能力、处理所需的能源和水,以及许多开发者创建迭代学习所需训练算法的努力。

然而,如果研究人员需要支持某个特定任务,而该任务可以由机器更有效地处理,而他们又没有像圣路易斯华盛顿大学这样的大型机构所提供的资源,那么还有哪些替代方案呢?例如,如果一位家长希望为孩子准备一场挑战性的考试,并需要提供许多复杂数学问题的解决示例。

鉴于前面提到的开销,自建一个LLM将是一个艰巨而昂贵的任务。此外,直接使用像GPT-4和Llama 3.1这样的大型模型,对于涉及逻辑和数学的任务所需的复杂推理可能也不太适合。

一种更经济的LLM思考者版本,类似于生成性AI中的通用品牌,将具有很大的优势。

为了解决这个问题,华盛顿大学的研究人员开发了一种自主代理,指导大型语言模型的推理能力。根据计算机科学与工程副教授Chenguang Wang和加州大学伯克利分校教授Dawn Song的研究,这种代理为每个任务生成一套独特的指令,已被证明在增强各种LLM在不同场景中的推理过程中非常有效。

这项研究的贡献者包括华盛顿大学的博士生Nicholas Crispino、Kyle Montgomery,以及研究分析师Fankun Zeng,他们最近在一场机器学习会议上展示了他们的发现。

根据Crispino的说法,这个“代理”作为一个大型LLM运作,帮助根据从互联网收集的信息制定逐步指令。通过提供基本任务细节,如数据集的名称和一些输入示例,该代理为各种任务生成高质量的指令。

这些指令帮助小型LLM完成特定任务。这种方法为生成性AI提供了更具成本效益的解决方案,因为大型LLM只需在每个数据集上使用一次,之后指令可以交给接管任务的小型LLM。

Crispino解释道:“我们仅使用昂贵的模型一次来创建有效的指令,指导成本较低的模型的推理或思维过程。”

Montgomery补充道:“我们的方法显著提升了领先大型语言模型的性能。”

团队在各种语言处理任务上测试了他们的经济实惠的方法,称为Zero-Shot AgentInstruct,并将其有效性与使用LLM Vicuna-13b、Llama-2-70b-chat和GPT-3.5 Turbo进行零-shot提示进行了比较。

与“零-shot思维链”提示——使用“让我们逐步思考”这个短语——相比,Zero-Shot AgentInstruct在29个数据集(包括53个子集)评估的众多任务中表现更优。

王表示:“我们在思维和推理方面的进步令人印象深刻,尤其是在数学和逻辑方面。”

本质上,他们利用强大LLM的优势,将任务分解为逐步推理的方法,类似于一位经验丰富的教育者与学生分享见解。

Crispino评论道:“我们正在探索利用大型模型增强小型模型的推理能力的极限,而无需额外训练。”