当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 到 2026 年,人工智能模型可能会吞噬所有互联网书面知识

作者:精品下载站 日期:2024-12-13 17:36:25 浏览:12 分类:涨姿势

到 2026 年,人工智能模型可能会吞噬所有互联网书面知识


一项新的估计表明,人工智能可能会在未来几年内耗尽所有互联网文本数据。一项新的研究警告说,下一个途径可能是私人信息。

[涨姿势] 到 2026 年,人工智能模型可能会吞噬所有互联网书面知识

一项新研究警告称,人工智能 (AI) 系统最快到 2026 年可能会吞噬所有互联网免费知识。

为 ChatGPT 提供支持的 GPT-4Claude 3 Opus 等人工智能模型依靠在线共享的数万亿个单词来变得更加智能,但新的预测表明它们将耗尽提供 2026 年至 2032 年期间的公开数据。 

这意味着为了建立更好的模型,科技公司将需要开始在其他地方寻找数据。这可能包括生成合成数据、转向质量较低的来源,或更令人担忧的是利用存储消息和电子邮件的服务器中的私人数据。研究人员于 6 月 4 日在预印本服务器 arXiv 上发表了他们的研究结果。

研究第一作者、Epoch AI 研究所研究员 Pablo Villalobos 告诉 Live:“如果聊天机器人消耗所有可用数据,并且数据效率没有进一步提高,我预计该领域将会相对停滞。”科学。 “随着时间的推移,随着新算法见解的发现和新数据的自然产生,模型只会缓慢改进。”

训练数据促进了人工智能系统的发展——使它们能够找出更复杂的模式来扎根于神经网络中。例如,ChatGPT 使用约 570 GB 的文本数据进行训练,总计约 3000 亿个单词,这些数据取自书籍、在线文章、维基百科和其他在线资源。

根据不足或低质量数据训练的算法会产生粗略的输出。谷歌的 Gemini AI 臭名昭著地建议人们在披萨上加胶水或吃石头,它的一些答案来自 Reddit 帖子和讽刺网站 The Onion 的文章。

为了估计网上有多少文本,研究人员使用了谷歌的网络索引,计算出目前大约有 2500 亿个网页,每页包含 7000 字节的文本。然后,他们对互联网协议 (IP) 流量(网络上的数据流)和在线用户活动进行后续分析,以预测可用数据存量的增长。

相关:“反向图灵测试”要求人工智能代理识别人类冒名顶替者 - 你永远猜不到他们是如何发现的

结果显示,来自可靠来源的高质量信息最迟将在 2032 年之前耗尽,而低质量的语言数据将在 2030 年至 2050 年间耗尽。与此同时,图像数据将在 2030 年之间完全耗尽和2060。

神经网络已被证明会随着数据集的增加而得到可预测的改进,这种现象称为神经缩放定律。因此,公司是否可以提高模型的效率以解决新数据的缺乏,或者关闭龙头是否会导致模型改进趋于稳定,这是一个悬而未决的问题。

然而,Villalobos 表示,数据稀缺似乎不太可能极大地抑制未来人工智能模型的增长。这是因为公司可以使用多种可能的方法来解决这个问题。

他补充道:“公司越来越多地尝试使用私人数据来训练模型,例如 Meta 即将推出的政策变化。”该公司宣布,将从 6 月 26 日起,在其平台上使用与聊天机器人的交互来训练其生成人工智能。成功地做到了这一点,如果私有数据的有用性与公共网络数据的有用性相当,那么领先的人工智能公司很可能拥有足够的数据来维持到本世纪末,届时将不再面临其他瓶颈。例如功耗、增加的培训成本和硬件可用性可能比缺乏数据更紧迫。”

另一种选择是使用合成的、人工生成的数据来喂养饥饿的模型——尽管这之前仅在游戏、编码和数学的训练系统中成功使用。

另外,如果公司试图未经许可获取知识产权或私人信息,一些专家预计未来会面临法律挑战。

澳大利亚麦考瑞大学技术和知识产权法专家、副教授 Rita Matulionyte 表示:“内容创作者抗议未经授权使用其内容来训练人工智能模型,一些公司起诉了微软、OpenAI 和 Stability AI 等公司。” ,在《对话》中写道。 “为他们的工作获得报酬可能有助于恢复创意人员和人工智能公司之间存在的一些权力不平衡。”

研究人员指出,数据稀缺并不是人工智能持续改进的唯一挑战。据国际能源署称,由 ChatGPT 驱动的 Google 搜索消耗的电量几乎是传统搜索的 10 倍。这使得技术领导者试图开发核聚变初创公司来为其饥饿的数据中心提供燃料,尽管新兴的发电方法还远未可行。

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯