[涨姿势] 到 2026 年,人工智能模型可能会吞噬所有互联网书面知识
作者:精品下载站 日期:2024-12-13 17:36:25 浏览:12 分类:涨姿势
到 2026 年,人工智能模型可能会吞噬所有互联网书面知识
一项新的估计表明,人工智能可能会在未来几年内耗尽所有互联网文本数据。一项新的研究警告说,下一个途径可能是私人信息。
一项新研究警告称,人工智能 (AI) 系统最快到 2026 年可能会吞噬所有互联网免费知识。
为 ChatGPT 提供支持的 GPT-4 或 Claude 3 Opus 等人工智能模型依靠在线共享的数万亿个单词来变得更加智能,但新的预测表明它们将耗尽提供 2026 年至 2032 年期间的公开数据。
这意味着为了建立更好的模型,科技公司将需要开始在其他地方寻找数据。这可能包括生成合成数据、转向质量较低的来源,或更令人担忧的是利用存储消息和电子邮件的服务器中的私人数据。研究人员于 6 月 4 日在预印本服务器 arXiv 上发表了他们的研究结果。
研究第一作者、Epoch AI 研究所研究员 Pablo Villalobos 告诉 Live:“如果聊天机器人消耗所有可用数据,并且数据效率没有进一步提高,我预计该领域将会相对停滞。”科学。 “随着时间的推移,随着新算法见解的发现和新数据的自然产生,模型只会缓慢改进。”
训练数据促进了人工智能系统的发展——使它们能够找出更复杂的模式来扎根于神经网络中。例如,ChatGPT 使用约 570 GB 的文本数据进行训练,总计约 3000 亿个单词,这些数据取自书籍、在线文章、维基百科和其他在线资源。
根据不足或低质量数据训练的算法会产生粗略的输出。谷歌的 Gemini AI 臭名昭著地建议人们在披萨上加胶水或吃石头,它的一些答案来自 Reddit 帖子和讽刺网站 The Onion 的文章。
为了估计网上有多少文本,研究人员使用了谷歌的网络索引,计算出目前大约有 2500 亿个网页,每页包含 7000 字节的文本。然后,他们对互联网协议 (IP) 流量(网络上的数据流)和在线用户活动进行后续分析,以预测可用数据存量的增长。
相关:“反向图灵测试”要求人工智能代理识别人类冒名顶替者 - 你永远猜不到他们是如何发现的
结果显示,来自可靠来源的高质量信息最迟将在 2032 年之前耗尽,而低质量的语言数据将在 2030 年至 2050 年间耗尽。与此同时,图像数据将在 2030 年之间完全耗尽和2060。
神经网络已被证明会随着数据集的增加而得到可预测的改进,这种现象称为神经缩放定律。因此,公司是否可以提高模型的效率以解决新数据的缺乏,或者关闭龙头是否会导致模型改进趋于稳定,这是一个悬而未决的问题。
然而,Villalobos 表示,数据稀缺似乎不太可能极大地抑制未来人工智能模型的增长。这是因为公司可以使用多种可能的方法来解决这个问题。
他补充道:“公司越来越多地尝试使用私人数据来训练模型,例如 Meta 即将推出的政策变化。”该公司宣布,将从 6 月 26 日起,在其平台上使用与聊天机器人的交互来训练其生成人工智能。成功地做到了这一点,如果私有数据的有用性与公共网络数据的有用性相当,那么领先的人工智能公司很可能拥有足够的数据来维持到本世纪末,届时将不再面临其他瓶颈。例如功耗、增加的培训成本和硬件可用性可能比缺乏数据更紧迫。”
另一种选择是使用合成的、人工生成的数据来喂养饥饿的模型——尽管这之前仅在游戏、编码和数学的训练系统中成功使用。
另外,如果公司试图未经许可获取知识产权或私人信息,一些专家预计未来会面临法律挑战。
澳大利亚麦考瑞大学技术和知识产权法专家、副教授 Rita Matulionyte 表示:“内容创作者抗议未经授权使用其内容来训练人工智能模型,一些公司起诉了微软、OpenAI 和 Stability AI 等公司。” ,在《对话》中写道。 “为他们的工作获得报酬可能有助于恢复创意人员和人工智能公司之间存在的一些权力不平衡。”
研究人员指出,数据稀缺并不是人工智能持续改进的唯一挑战。据国际能源署称,由 ChatGPT 驱动的 Google 搜索消耗的电量几乎是传统搜索的 10 倍。这使得技术领导者试图开发核聚变初创公司来为其饥饿的数据中心提供燃料,尽管新兴的发电方法还远未可行。
猜你还喜欢
- 02-18 [驾车常识] 这3种违章务必15天内处理,否则或面临罚金翻倍?这是真的吗?
- 02-18 [驾车常识] 等红灯时前车出毛病不动了,后车实线变道被记3分?交警会如何判罚你知道吗?
- 02-18 [驾车常识] 高速上这些“新路标”80%的车主看不懂,你是其中的25%的人吗?
- 02-18 [涨姿势] 开车被追尾,若对方全责,记得多说这3句话,或能多拿到几笔赔偿 ,知道了吗?
- 02-18 [驾车常识] 两车同时并线,发生事故到底谁负责?看完就懂了
- 12-14 [涨姿势] 古埃及神庙发现的可能是克利奥帕特拉七世的半身像
- 12-14 [涨姿势] 谷歌的新型量子芯片解决了最好的超级计算机需要宇宙年龄四万亿倍才能破解的问题
- 12-14 [涨姿势] 新研究揭示了古代“天空圆盘”是如何制造的,粉碎了它是赝品的说法
- 12-14 [涨姿势] 器官芯片显示,眼镜蛇毒液通过血管塌陷而致人死亡
- 12-14 [涨姿势] 2000年前的岩石艺术,包括近140英尺长的蛇,可能标志着哥伦比亚和委内瑞拉的古代领土
- 12-14 [涨姿势] 嵌入人类基因组中的“化石病毒”与精神疾病有关
- 12-14 [涨姿势] 美国最新一例人类 H5N1 禽流感病例是第一个引起呼吸道症状的病例
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[影视] 黑道中人 Alto Knights(2025)剧情 犯罪 历史 电影
[古装剧] [七侠五义][全75集][WEB-MP4/76G][国语无字][1080P][焦恩俊经典]
[实用软件] 虚拟手机号 电话 验证码 注册
[电视剧] 安眠书店/你 第五季 You Season 5 (2025) 【全10集】
[电视剧] 棋士(2025) 4K 1080P【全22集】悬疑 犯罪 王宝强 陈明昊
[软件合集] 25年6月5日 精选软件22个
[软件合集] 25年6月4日 精选软件36个
[短剧] 2025年06月04日 精选+付费短剧推荐33部
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[实用软件] 虚拟手机号 电话 验证码 注册
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag