当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 突破后,大型语言模型可以被压缩到你的手机上,而不需要数千台服务器来运行

作者:精品下载站 日期:2024-12-13 13:33:25 浏览:13 分类:涨姿势

突破后,大型语言模型可以被压缩到你的手机上,而不需要数千台服务器来运行


新的压缩算法缩小了模型的大小后,在智能手机或笔记本电脑上本地运行大规模人工智能模型可能成为可能——这意味着您的数据永远不会离开您的设备。问题是它可能会在一小时内耗尽你的电池。

[涨姿势] 突破后,大型语言模型可以被压缩到你的手机上,而不需要数千台服务器来运行

像 ChatGPT 这样强大的人工智能 (AI) 模型需要大量的电力才能运行,因此它们通常位于庞大的数据中心中。但一项新的突破可以压缩这些人工智能模型,使其适合智能手机或笔记本电脑。

一种名为“校准感知低精度分解与低秩适应”(CALDERA) 的新算法通过修剪代码中的冗余并降低其信息层的精度来压缩运行大型语言模型 (LLM) 所需的大量数据。

科学家们在 5 月 24 日在神经信息处理系统会议上发表演讲之前发表在预印本数据库 arXiv 上的一项研究中表示,这种更精简的 LLM 的准确性和细微差别的水平略低于未压缩版本。 (NeurIPS)十二月。

研究合著者:“任何时候,只要你能够降低使用人工智能模型的计算复杂性、存储和带宽要求,你就可以在无法处理此类计算和内存密集型任务的设备和系统上启用人工智能。”普林斯顿大学电气与计算机工程教授安德里亚·戈德史密斯 (Andrea Goldsmith) 在一份声明中说道。

科学家在研究中表示,每当有人在手机或笔记本电脑上使用 ChatGPT(举一个流行的例子)时,提出的任何请求都会发送到巨大的远程服务器,在那里处理数据会付出巨大的环境和财务成本。这是因为这种规模的 AI 模型会消耗大量的处理能力,因为它们需要使用数百个甚至数千个组件,例如图形处理单元 (GPU)。因此,要在小型设备上使用单个 GPU 执行这些请求,必须压缩 AI 模型的大小和范围。

相关:数学家设计了新的问题来挑战高级人工智能的推理能力 - 他们几乎每次测试都失败了

为了压缩 LLM,CALDERA 结合了两种技术。科学家们表示,第一种技术是“低精度”,它减少了用于存储信息的位数(数据的 1 和 0),从而加快了存储和处理速度,同时提高了能源效率。第二个称为“低等级”,是指减少训练法学硕士时使用的可学习参数的冗余。

“我们提出了一种用于压缩大型数据集或大型矩阵的通用算法。然后我们意识到,现在不仅数据集很大,而且部署的模型也越来越大。所以,我们也可以使用我们的算法压缩这些模型,”研究合著者、斯坦福大学博士生 Rajarshi Saha 在声明中说道。 “结合使用这两种特性,我们能够获得比这两种技术单独实现的压缩率更高的压缩率。”

该团队在 Meta 的开源 Llama 2 和 Llama 3 模型上测试了该算法,与仅使用这两种技术之一的现有压缩算法相比,性能提高了高达 5%。研究结果可能为未来法学硕士在智能手机或笔记本电脑上存储和运行铺平道路,特别是在隐私至关重要且不需要最高精确度的情况下。

然而,科学家们警告说,法学硕士并未针对在此类设备上高效运行进行优化。

“如果你正在攻读法学硕士,而你的手机在一小时内就没电了,你不会高兴的。但我不会说有一种技术可以解决所有问题,”萨哈在声明中说。 “我们在本文中提出的是一种与先前工作中提出的技术结合使用的技术。我认为这种组合将使我们能够更有效地在移动设备上使用法学硕士并获得更准确的结果。”

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯