互联网档案馆被美媒封杀,“AI圈地运动”来了
刻在石头上的碑文会风化,写在纸上的文字会被遗忘
长久以来,信息保存始终是人类文明的核心挑战。互联网的诞生,曾被寄予厚望,视作这一挑战的终极解决方案——一个近乎永恒的数字载体。“互联网是有记忆的”,这句断言曾是我们笃信的共识。
然而,这一共识在2015年遭遇了来自其奠基者的深刻质疑。TCP/IP协议与互联网架构的联合设计者、时任谷歌副总裁的温顿·瑟夫,提出了一个在当时极具冲击力的观点。他指出,数字技术的快速迭代与存储格式的持续更替,可能导致我们今天存储在云端的海量图片、文档与数据,在未来因无法读取而彻底湮灭。人类或将步入一个“数字黑暗时代”,使得21世纪的历史记录对后代而言变得难以触及。
作为互联网的缔造者之一,温顿·瑟夫的警告绝非空谈。过去十年间,他的预言正逐步演变为我们亲历的现实。
消失的网页与失效的快照
数据揭示了严峻的态势。2023年,美国皮尤研究中心发布报告指出,截至当年10月,在2013年至2023年间存在过的网页中,已有25%的状态变为“404 Not Found”。这意味着,每四个网页中就有一个已永久消失。随后在2024年,谷歌、百度、必应等主流搜索引擎相继做出关键决策:取消网页快照功能。这无疑关闭了一扇回溯历史信息的关键窗口。
如果说以往互联网信息的散佚,多源于平台因运营成本主动终止服务,那么近期的一系列事件,则让“数字黑暗时代”的威胁变得更加具体,甚至带有某种讽刺意味。据《连线》杂志报道,《今日美国》、《纽约时报》、《卫报》等全球知名媒体,开始集体屏蔽互联网档案馆旗下“时光机”的爬虫,阻止其抓取与存档自身页面。
一个颇具戏剧性的案例是,《今日美国》曾刊发一篇深度调查,揭露美国移民与海关执法局如何拖延披露其拘留政策的影响。而这篇报道所依据的关键数据,恰恰来自互联网档案馆的“时光机”。对此,互联网档案馆负责人马克·格雷厄姆无奈地表示:“他们能完成这篇调查,正是得益于‘时光机’的存在。如今,他们却反过来封锁了访问权限。”
媒体的官方解释各有侧重。《今日美国》发言人称,此举是全面封禁所有爬虫程序的一部分,并非针对互联网档案馆。《卫报》高管则解释,主要担忧在于人工智能公司滥用为存档目的而抓取的内容。据统计,目前已有超过20家主流新闻网站,屏蔽了互联网档案馆用于存档的专用爬虫。
无妄之灾:当存档者成为“替罪羊”
作为全球最知名的非营利数字图书馆,互联网档案馆一直是公众回溯网络历史的核心工具,但这亦使其近年屡陷困境。早在2023年,其旨在保存黑胶唱片录音的“Great 78项目”,便遭遇索尼等唱片巨头的版权诉讼,最终导致数千份数字化录音被迫下架。如今,新闻媒体又以版权保护为由,拒绝其收录“网络记忆”。
这引出了一个核心问题:新闻媒体的数字化进程始于本世纪初,互联网档案馆收录其网页的历史已超二十年,为何直到现在才大张旗鼓地“保护版权”?
实质上,互联网档案馆此次遭遇了某种“无妄之灾”。这些媒体真正意图防范的,并非这个公益存档机构,而是来自AI厂商的数据爬虫。
版权博弈下的新逻辑
新闻媒体与OpenAI、Anthropic等AI巨头之间的版权诉讼已屡见不鲜。但关键在于,在全球主要经济体都将AI发展视作核心战略的背景下,版权大棒挥向财力雄厚、势头正盛的AI厂商,往往收效甚微。通过法律途径保护自身内容资产不被无偿利用,对媒体而言正变得日益艰难。
既然无法阻止自家产出的高质量内容成为训练AI大模型的“数据燃料”,新闻媒体的商业逻辑也随之转变。当自身内容不可避免地可能成为未来竞争中的“绞索”时,他们选择了一个更为现实的策略:将这条“绞索”卖个好价钱。即,与OpenAI等AI厂商达成内容授权合作,从无偿使用转向有偿交易。
这一选择背后是残酷的商业考量。将内容授权给AI公司,固然存在“饮鸩止渴”的风险——终有一天AI的生成能力可能超越人类。然而,如果放任互联网档案馆将自己的历史内容免费公之于众,那么媒体连眼前这笔可观的授权费都无法获取。在生存压力面前,互联网档案馆所代表的“全球网民公共利益”,不得不为现实的商业利益让路。
AI大模型技术深刻地重塑了互联网的数据规则与价值分配。未来,这种以“筑墙”方式保护数据资产的做法,或将成为新常态。Web 3.0所畅想的去中心化理想与创作者经济,正以一种出人意料、甚至略显扭曲的方式悄然演进。数字记忆的长期保存,从未像今天这样,深陷于商业利益、技术迭代与公共福祉的复杂博弈之中。



