拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
技术简化语言模型:提升移动设备和笔记本电脑的本地效率

简化语言模型:提升移动设备和笔记本电脑的本地效率

研究人员开发了一种压缩大语言模型(LLMs)所使用的大量数据的新方法,这具有增强隐私、减少能源消耗和降低成本的潜力。这种创新算法通过消除多余信息和降低LLM层中数据的精确度来工作。因此,这种简化版的LLM可以在智能手机或笔记本电脑等设备上本地存储和使用,其性能几乎与未压缩版本的准确性和细节相同。

大语言模型(LLMs)正越来越多地接管翻译、文本分类和客户服务等任务。然而,利用LLM的强大功能通常需要用户将请求发送到中央服务器,这一过程可能成本高昂、耗能大,并且往往速度较慢。

研究人员现在揭示了一种压缩LLM庞大数据的方法,旨在改善隐私、节省能源和降低成本。

这一新算法由普林斯顿大学和斯坦福工程学院的工程师创建,减少不必要的信息,并降低LLM结构中的精确度。这种更高效的LLM可以在智能手机或笔记本电脑等设备上本地保存并运行,同时保持与未压缩模型几乎相同的性能水平。

本研究的合著者、普林斯顿工程与应用科学学院院长安德里亚·戈德史密斯(Andrea Goldsmith)表示:“每当我们能够减少人工智能模型的计算复杂性、存储和带宽需求时,我们就打开了在以前无法处理如此高要求的计算和内存任务的设备上使用人工智能的可能性。”

另一位合著者、斯坦福工程学院博士生拉贾尔希·萨哈(Rajarshi Saha)指出:“当你与ChatGPT互动时,你的查询会发送到OpenAI的服务器进行处理,这非常昂贵。我们的目标是使消费者GPU(图形处理单元)能够进行LLM推理,而压缩是实现这一目标的关键。”萨哈的研究生研究由戈德史密斯和斯坦福工程学院助理教授梅特·皮兰西(Mert Pilanci)共同指导。

该团队将在12月份的神经信息处理系统会议(NeurIPS)上介绍他们的新算法CALDERA(标定-aware低精度分解与低秩适应)。研究人员开始进行压缩研究时并不直接专注于LLM,而是关注用于训练LLM和其他复杂人工智能模型的大型数据集,例如图像分类中使用的数据集。他们关于此技术的早期工作于2023年发表。

训练数据集和人工智能模型都由矩阵或数字数据网格组成。对于LLM,这些被特别称为权重矩阵,捕捉了来自广泛文本来源的学习词模式。

萨哈表示:“我们最初提出了一种通用算法,用于压缩大型数据集或矩阵。在意识到数据集和所应用模型都在不断变大后,我们调整了算法以压缩这些模型。”

虽然并不是首个压缩LLM的团队,但该团队的算法由于其独特的两个方面的结合而突出:“低精度”和“低秩”。“低精度”表示减少存储和处理需要的位数,从而提高速度和能源效率。与此相反,“低秩”则是指最小化LLM权重矩阵内的冗余。

根据萨哈的说法,通过结合这两个特性,研究人员实现了比单独使用任何一种方法时显著更多的压缩。

该团队使用Meta AI的开源LLM Llama 2和Llama 3测试了他们的方法。他们发现,双组件方法不仅增强了低精度技术的应用,还在预测词序列时提高了高达5%的不确定性指标。

为了评估压缩模型的性能,他们使用了各种LLM基准任务。这些任务包括确定两个陈述的正确顺序和回答需要物理推理的问题,例如将蛋白从蛋黄中分离或冲泡一杯茶。

戈德史密斯表示:“能够通过这种压缩方法取得如此显著的结果,既令人鼓舞又有些意外。”她指出,强调利用权重矩阵而不仅仅是使用标准的位压缩技术导致了更优越的结果。

在这种方式压缩的LLM非常适合在不需要最高精度的情况下使用。此外,能够在个人设备(如智能手机或笔记本电脑)上微调压缩的LLM提升了隐私,因为组织和个人在不将敏感数据发送至第三方服务的情况下能自定义模型。这有助于降低整个训练过程中数据泄露或对机密信息未经授权访问的风险。然而,要实现这一点,LLM必须充分压缩以便在消费级GPU上运行。

萨哈警告说,在个人设备上运行LLM可能会消耗大量内存一段时间。“如果你使用LLM,而你的手机在一小时内耗尽电池,那会很令人沮丧。”他说。他补充道,低精度计算可以帮助降低能耗,但没有单一方法能够解决所有问题。“我们提出的方法是一种与先前建议的方法结合使用的技术,最终使得在移动设备上的LLM使用更高效,并提高结果的准确性。”

题为“利用低秩和低精度分解压缩大型语言模型”的论文将于2024年12月在神经信息处理系统会议(NeurIPS)上发表。除了戈德史密斯、萨哈和皮兰西外,合著者还包括斯坦福工程的研究人员内奥米·萨根(Naomi Sagan)和瓦伦·斯里瓦斯塔瓦(Varun Srivastava)。本研究部分由美国国家科学基金会、美国陆军研究办公室和海军研究办公室资助。