当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 麻省理工学院的科学家刚刚弄清楚如何使最流行的人工智能图像生成器的速度提高 30 倍

作者:精品下载站 日期:2024-12-13 18:26:22 浏览:14 分类:涨姿势

麻省理工学院的科学家刚刚弄清楚如何使最流行的人工智能图像生成器的速度提高 30 倍


科学家们建立了一个框架,通过将 DALL·E 3 和 Stable Diffusion 等生成式 AI 系统压缩成更小的模型,从而大大推动它们的发展,同时又不影响其质量。

[涨姿势] 麻省理工学院的科学家刚刚弄清楚如何使最流行的人工智能图像生成器的速度提高 30 倍

新的研究表明,得益于一种将整个 100 阶段过程压缩为一个步骤的技术,流行的人工智能 (AI) 支持的图像生成器的运行速度可以提高 30 倍。

科学家们设计了一种名为“分布匹配蒸馏”(DMD)的技术,该技术教导新的人工智能模型模仿已建立的图像生成器,称为扩散模型,例如 DALL·E 3、Midjourney 和 Stable Diffusion。

该框架可以产生更小、更精简的人工智能模型,可以更快地生成图像,同时保持最终图像的相同质量。科学家们在 2023 年 12 月 5 日上传到预印本服务器 arXiv 的一项研究中详细介绍了他们的发现。

“我们的工作是一种新颖的方法,可以将稳定扩散和 DALLE-3 等电流扩散模型加速 30 倍,”该研究的共同主要作者 Tianwei Yin 是一名电气工程和计算机科学博士生。麻省理工学院在一份声明中表示。 “这一进步不仅显着减少了计算时间,而且保留了(如果不是超越的话)生成的视觉内容的质量。

扩散模型通过多阶段过程生成图像。使用带有描述性文本标题和其他元数据的图像作为训练数据,人工智能经过训练可以更好地理解图像背后的上下文和含义,从而可以准确地响应文本提示。

相关:新的 AI 图像生成器比 OpenAI 最好的工具快 8 倍,并且可以在廉价计算机上运行

人工智能科学家 Jay Alammar 在一篇博客文章中解释说,在实践中,这些模型的工作原理是获取随机图像并用随机噪声场对其进行编码,从而将其破坏。这称为“前向扩散”,是“前向扩散”的关键一步。培训过程。接下来,图像会经过多达 100 个步骤来清除噪声,称为“反向扩散”,以根据文本提示生成清晰的图像。

通过将他们的新框架应用于新模型,并将这些“反向扩散”步骤减少到一个,科学家们缩短了生成图像所需的平均时间。在一项测试中,他们的模型使用稳定扩散 v1.5 将图像生成时间从约 2,590 毫秒(或 2.59 秒)缩短至 90 毫秒,速度提高了 28.8 倍。

DMD 有两个组件,它们协同工作以减少模型在生成可用图像之前所需的迭代次数。第一个称为“回归损失”,在训练期间根据相似性组织图像,这使得人工智能学习得更快。第二个称为“分布匹配损失”,这意味着描绘一个被咬了一口的苹果的几率与你在现实世界中可能遇到一个苹果的频率相对应。这些技术共同减少了新人工智能模型生成的图像看起来的怪异程度。

麻省理工学院电气工程和计算机科学教授、联合主要作者Fredo Durand在声明中表示:“自扩散模型诞生以来,减少迭代次数一直是扩散模型的圣杯。” “我们非常高兴最终能够实现单步图像生成,这将大大降低计算成本并加速这一过程。”

尹说,这种新方法大大降低了生成图像所需的计算能力,因为只需要一个步骤,而不是原始扩散模型中的“数百步迭代细化”。科学家们表示,该模型还可以在闪电般快速和高效的生成至关重要的行业中提供优势,从而加快内容创建的速度。

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯