AI聊天机器人新闻引用率研究:25%引言源自报道
最近,Muckrack发布了一项挺有意思的研究。他们专门分析了Gemini、Perplexity、Claude和ChatGPT这四款主流AI聊天机器人,在科技、财经、社会等多个领域生成的1500万条回复。结果发现了一个关键事实:我们平时从AI那里得到的那些看似“原创”的浓缩信息,其实有相当一部分,根子都扎在专业的新闻报道里。
具体来说,**整整四分之一的AI生成引言,其表述直接来源于公开的新闻报道**。这个数字本身,就足够说明问题了。当用户越来越依赖AI来快速获取信息时,支撑这些答案可信度的基石,很大程度上依然是专业媒体经过核实和编辑的内容。
谁是被AI“偏爱”的信息源?
那么,哪些媒体和记者最常被AI“引用”呢?研究给出了清晰的排名。
在全球范围内,路透社和福布斯是出版物中被引用次数最多的两位,路透社位居榜首。如果把目光聚焦到英国市场,情况又有所不同,《卫报》的内容使用率遥遥领先于其他本地媒体。
更有趣的是个人维度。前《商业内幕》首席执行官、资深财经记者亨利·布洛杰特,成为了全球被AI引用次数最高的记者。他过往那些犀利的行业分析和评论,显然被各大模型视为构建高质量财经回复的可靠素材,屡次被直接整合进生成的答案中。
基于这个发现,Muckrack甚至已经推出了一个新功能,将记者的“AI可见度”分成了三个等级。内容创作者现在可以直观地看到,自己的作品被主流AI引用了多少次、都用在了哪些类型的查询里。
生活化查询,来源大不同
当然,AI的信息源选择并非一成不变。另一项针对谷歌AI概览功能的补充分析揭示了一个明显的趋势:当用户的问题更偏向生活技巧、泛知识类查询时,AI调用的信息源结构会发生显著变化。
在这种情况下,来自Facebook、Reddit等平台的用户生成内容占比会大幅上升,甚至超过专业新闻内容。这其实很符合逻辑:想知道“最好的披萨做法”或“某个小众游戏的攻略”,社交媒体上的真实用户经验,往往比传统新闻机构的数据更有参考价值。这也说明,大模型在不同应用场景下,其信息源的遴选逻辑存在根本性的差异。
给版权之争带来了新变量
这份研究的价值,远不止于揭示现象。它给持续数年的AI训练数据版权纠纷,提供了一个全新的、量化的观察视角。
过去,大模型公司多以“合理使用”为由,来应对媒体和创作者关于版权的主张。但这份报告清晰地证明,新闻内容不仅仅是被用于“训练”模型,更是在模型最终的“输出”环节扮演着核心角色,直接构成了交付给用户的价值的一部分。这无疑为后续媒体、创作者与AI公司之间关于授权合作、收益分配的谈判,提供了坚实的数据支撑。
一个行业共识正在形成:随着AI内容来源追溯机制变得越来越完善,专业内容的价值只会进一步凸显。未来,优质的创作者或许真的能从AI产业的蛋糕中,分得更为合理的一角。这不仅仅是公平与否的问题,更关乎整个信息生态的健康与可持续性。