为超越 OpenAI GPT-4，Meta 不惜使用争议数据训练 Llama 3

2026-05-01阅读 0热度 0

其他

为超越 OpenAI GPT-4，Meta 不惜使用争议数据训练 Llama 3

科技巨头在人工智能领域的竞争，到底有多激烈？最近一场涉及 Meta 的版权诉讼，意外揭开了其AI研发团队内部通信的一角。最新披露的文件显示，在打造Llama 3的过程中，Meta的高管和研究员们将超越OpenAI的GPT-4视为不容动摇的终极目标，整个团队弥漫着一种近乎“战时状态”的紧迫感。

这份竞争心态，在Meta生成式AI副总裁艾哈迈德·阿尔-达赫勒的一段内部消息中体现得淋漓尽致。2023年10月，他对研究员雨果·图夫龙直言不讳：“实话实说……我们的目标必须是GPT-4。我们马上就能调度64,000个GPU！我们必须学会如何构建尖端技术，并且要赢下这场竞赛。”

这很有意思。要知道，Meta一向以推动“开源AI”的旗手形象示人，但其内部团队的视线，显然紧紧锁定了那些不公开模型权重的对手。无论是Anthropic的Claude，还是OpenAI的GPT-4，都被Meta内部视作必须对标和超越的行业标杆。

更有甚者，在讨论开源领域的同行时，Meta对法国AI明星初创公司Mistral的态度几乎可以说是“蔑视”。作为开源赛道的主要竞争者之一，Mistral似乎并未被放在眼里。阿尔-达赫勒在消息中干脆地表示：“Mistral对我们来说不值一提。我们应该能做得更好。”

当前AI军备竞赛已白热化，而Meta的内部通信进一步证实，其AI领导层秉持着高度激进的竞争策略。在多次交流中，负责人提到，为了获取训练Llama模型所需的数据，团队表现得“非常激进”。一位高管的内部邮件甚至写道：“Llama 3几乎是我唯一关心的事情。”这种all in的心态，无疑为后续的争议埋下了伏笔。

果然，这种激进的策略很快触碰了法律红线。本案检察官指控，Meta高管在急于推出模型的过程中，涉嫌使用了受版权保护的书籍进行训练。内部讨论记录也显示，研究员图夫龙曾指出，用于训练Llama 2的数据集“质量不佳”，并探讨如何优化数据源来提升Llama 3。随后，他与阿尔-达赫勒讨论了使用LibGen数据集的可能性——该库包含了多家知名教育出版商的受版权作品。阿尔-达赫勒当时的问题非常直接：“我们是否有合适的数据集？有没有什么数据是你想用却因为某些愚蠢的原因无法使用的？” 这句话，几乎成了这场版权诉讼的最佳注脚。

这种对数据的渴求和对性能的极致追求，压力显然来自最高层。Meta首席执行官马克·扎克伯格曾公开表示，正全力缩小Llama与OpenAI、谷歌等闭源模型的性能差距。内部信息显示，公司上下为实现这一目标承受着巨大压力。扎克伯格在2024年7月的一封信中展望：“今年，Llama 3已经能够与最先进的模型竞争，并在某些领域领先。从明年开始，我们预计未来的Llama模型将成为行业中最先进的。”这番话，既是对团队的鼓舞，也像是一道必须完成的军令状。

时间来到2024年4月，Meta如期发布了Llama 3。从结果看，这款开源模型在性能上确实与谷歌、OpenAI和Anthropic的闭源模型打得有来有回，并成功超越了Mistral的开源模型。然而，光环之下，阴影犹存。用于训练模型的数据，尽管据称获得了扎克伯格的批准，但其模糊的版权状态，正使Meta陷入多起诉讼的旋涡之中。这场为超越GPT-4而发起的冲锋，其代价或许正在逐步浮现。

为超越 OpenAI GPT-4，Meta 不惜使用争议数据训练 Llama 3

为超越 OpenAI GPT-4，Meta 不惜使用争议数据训练 Llama 3

相关阅读

最新教程

最新资讯