互联网档案馆被美媒封杀，“AI圈地运动”来了

2026-04-27阅读 308热度 308

其他

刻在石头上的碑文会风化，写在纸上的文字会被遗忘

长久以来，信息保存始终是人类文明的核心挑战。互联网的诞生，曾被寄予厚望，视作这一挑战的终极解决方案——一个近乎永恒的数字载体。“互联网是有记忆的”，这句断言曾是我们笃信的共识。

然而，这一共识在2015年遭遇了来自其奠基者的深刻质疑。TCP/IP协议与互联网架构的联合设计者、时任谷歌副总裁的温顿·瑟夫，提出了一个在当时极具冲击力的观点。他指出，数字技术的快速迭代与存储格式的持续更替，可能导致我们今天存储在云端的海量图片、文档与数据，在未来因无法读取而彻底湮灭。人类或将步入一个“数字黑暗时代”，使得21世纪的历史记录对后代而言变得难以触及。

作为互联网的缔造者之一，温顿·瑟夫的警告绝非空谈。过去十年间，他的预言正逐步演变为我们亲历的现实。

消失的网页与失效的快照

数据揭示了严峻的态势。2023年，美国皮尤研究中心发布报告指出，截至当年10月，在2013年至2023年间存在过的网页中，已有25%的状态变为“404 Not Found”。这意味着，每四个网页中就有一个已永久消失。随后在2024年，谷歌、百度、必应等主流搜索引擎相继做出关键决策：取消网页快照功能。这无疑关闭了一扇回溯历史信息的关键窗口。

如果说以往互联网信息的散佚，多源于平台因运营成本主动终止服务，那么近期的一系列事件，则让“数字黑暗时代”的威胁变得更加具体，甚至带有某种讽刺意味。据《连线》杂志报道，《今日美国》、《纽约时报》、《卫报》等全球知名媒体，开始集体屏蔽互联网档案馆旗下“时光机”的爬虫，阻止其抓取与存档自身页面。

一个颇具戏剧性的案例是，《今日美国》曾刊发一篇深度调查，揭露美国移民与海关执法局如何拖延披露其拘留政策的影响。而这篇报道所依据的关键数据，恰恰来自互联网档案馆的“时光机”。对此，互联网档案馆负责人马克·格雷厄姆无奈地表示：“他们能完成这篇调查，正是得益于‘时光机’的存在。如今，他们却反过来封锁了访问权限。”

媒体的官方解释各有侧重。《今日美国》发言人称，此举是全面封禁所有爬虫程序的一部分，并非针对互联网档案馆。《卫报》高管则解释，主要担忧在于人工智能公司滥用为存档目的而抓取的内容。据统计，目前已有超过20家主流新闻网站，屏蔽了互联网档案馆用于存档的专用爬虫。

无妄之灾：当存档者成为“替罪羊”

作为全球最知名的非营利数字图书馆，互联网档案馆一直是公众回溯网络历史的核心工具，但这亦使其近年屡陷困境。早在2023年，其旨在保存黑胶唱片录音的“Great 78项目”，便遭遇索尼等唱片巨头的版权诉讼，最终导致数千份数字化录音被迫下架。如今，新闻媒体又以版权保护为由，拒绝其收录“网络记忆”。

这引出了一个核心问题：新闻媒体的数字化进程始于本世纪初，互联网档案馆收录其网页的历史已超二十年，为何直到现在才大张旗鼓地“保护版权”？

实质上，互联网档案馆此次遭遇了某种“无妄之灾”。这些媒体真正意图防范的，并非这个公益存档机构，而是来自AI厂商的数据爬虫。

版权博弈下的新逻辑

新闻媒体与OpenAI、Anthropic等AI巨头之间的版权诉讼已屡见不鲜。但关键在于，在全球主要经济体都将AI发展视作核心战略的背景下，版权大棒挥向财力雄厚、势头正盛的AI厂商，往往收效甚微。通过法律途径保护自身内容资产不被无偿利用，对媒体而言正变得日益艰难。

既然无法阻止自家产出的高质量内容成为训练AI大模型的“数据燃料”，新闻媒体的商业逻辑也随之转变。当自身内容不可避免地可能成为未来竞争中的“绞索”时，他们选择了一个更为现实的策略：将这条“绞索”卖个好价钱。即，与OpenAI等AI厂商达成内容授权合作，从无偿使用转向有偿交易。

这一选择背后是残酷的商业考量。将内容授权给AI公司，固然存在“饮鸩止渴”的风险——终有一天AI的生成能力可能超越人类。然而，如果放任互联网档案馆将自己的历史内容免费公之于众，那么媒体连眼前这笔可观的授权费都无法获取。在生存压力面前，互联网档案馆所代表的“全球网民公共利益”，不得不为现实的商业利益让路。

AI大模型技术深刻地重塑了互联网的数据规则与价值分配。未来，这种以“筑墙”方式保护数据资产的做法，或将成为新常态。Web 3.0所畅想的去中心化理想与创作者经济，正以一种出人意料、甚至略显扭曲的方式悄然演进。数字记忆的长期保存，从未像今天这样，深陷于商业利益、技术迭代与公共福祉的复杂博弈之中。

互联网档案馆被美媒封杀，“AI圈地运动”来了

刻在石头上的碑文会风化，写在纸上的文字会被遗忘

消失的网页与失效的快照

无妄之灾：当存档者成为“替罪羊”

版权博弈下的新逻辑

相关阅读

最新教程

最新资讯