当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 自 2013 年以来,近 40% 的网页已遭受数字化衰退

作者:精品下载站 日期:2024-12-13 16:13:34 浏览:13 分类:涨姿势

自 2013 年以来,近 40% 的网页已遭受数字化衰退


网页不是永久性的东西,它们会随着时间的推移而“腐烂”,一份新的报告显示了这种数字现象的严重程度。

[涨姿势] 自 2013 年以来,近 40% 的网页已遭受数字化衰退

根据一份新的报告,许多网站已经消失,这是数字衰退过程的一部分。 

图片来源:isak55/Shutterstock.com

您是否一直在寻找几年前读过的文章,但一直找不到?如果它是 2013 年写的,那么它很可能已经从互联网上消失了。皮尤研究中心的最新研究表明,2013 年创建的所有网页中有近 40% 由于“数字衰退”而无法再访问。

新的分析远非不可磨灭的创造,而是证明了在线内容实际上是多么短暂。数字衰退是指数字信息随着时间的推移逐渐退化、损坏或过时。  

根据他们的结果,2013 年存在的内容中有 38% 现在无法使用。当扩大分析范围时,研究人员发现 2013 年至 2023 年间某个时间点存在的所有网页中有四分之一现在无法访问。在大多数情况下,这是因为相关页面被删除或从其他功能网站中删除。

在这种情况下,团队将“无法访问”定义为不再位于主机服务器上的页面 - 这种类型通常会导致 404 消息或其他错误代码。

为了收集分析数据,研究人员使用了 Common Crawl 档案库中近 100 万个网页(每年约 90,000 页)的随机样本,该档案库是一个互联网存储库,定期拍摄不同时间的网络快照。他们收集了 2013 年至 2023 年间的这些信息,然后检查这些页面是否仍然存在。

截至 2023 年 10 月,在此期间创建的页面中约有 25% 无法再访问。这一数字由两种类型的失效内容组成:16% 的页面“单独无法访问”,但位于可访问的根级域上。然而,另外 9% 则无法访问,因为整个根域已不复存在。

该报告的作者解释说:“毫不奇怪,我们收集的旧快照中无法访问的链接所占比例最大”。

到 2023 年底,2013 年快照中收集的页面中有 38% 消失了。但即使是 2021 年快照的内容也遭受了这种衰退,大约五分之一的页面丢失了。

对于不同类型的网页也有一些有趣的比较结果。例如,该分析检查了 50,000 个英文维基百科页面的参考链接。他们发现 82% 的样本页面至少有一个参考链接将用户带到非维基百科页面 - 然而,11% 的“维基百科上链接的所有参考文献”不再可访问。

在大约 2% 的抽样源页面中,每个链接都无法访问或损坏,而大约 53% 的源页面至少包含一个损坏的链接。

政府网站也提供了一些好奇心。研究小组发现,在他们抽样的 50 万个政府网页中,大约四分之三往往至少有一个链接。平均页面中包含 50 个链接,但许多页面包含更多链接。这些页面中的绝大多数会转到安全 HTTP 页面,16% 会重定向到其他页面。

但大约 21% 的受检查政府页面还包含至少一个损坏的链接。市政府页面似乎是这方面最严重的违规者。

即使是新闻网站也未能摆脱这个问题。研究人员发现,在他们抽样的新闻网站中,大约 94% 的网站至少包含一个导致读者离开网站的链接。中间页面包含大约 20 个链接,前 10% 的页面包含大约 56 个链接。

分析表明,与政府网站一样,这些链接绝大多数都是安全 HTTP 页面。这些新闻网站上大约 32% 的链接将用户重定向到与最初使用的 URL 不同的 URL。大约 5% 的新闻网站链接现在无法访问,大约 23% 的页面至少有一个损坏的链接。

最后,在 Twitter(现为 X)上,研究人员发现,2013 年 3 月至 2023 年期间发布的 500 万条推文中,18% 不再可用。

研究人员解释说:“在大多数情况下,这是因为最初发布推文的帐户被设为私有、暂停或完全删除。” “对于其余的推文,发布该推文的帐户在网站上仍然可见,但个别推文已被删除。 ”

他们还发现,如果推文是用某些语言编写的,那么它们特别容易消失或被删除。例如,一半的土耳其语推文和一小部分阿拉伯语推文不再可用。

总的来说,大多数从网站上删除的推文往往在发布后很快就会消失。 ”

该报告发布在皮尤研究中心网站上。  

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯