为超越 OpenAI GPT-4,Meta 不惜使用争议数据训练 Llama 3

2026-05-01阅读 0热度 0
其他

为超越 OpenAI GPT-4,Meta 不惜使用争议数据训练 Llama 3

科技巨头在人工智能领域的竞争,到底有多激烈?最近一场涉及 Meta 的版权诉讼,意外揭开了其AI研发团队内部通信的一角。最新披露的文件显示,在打造Llama 3的过程中,Meta的高管和研究员们将超越OpenAI的GPT-4视为不容动摇的终极目标,整个团队弥漫着一种近乎“战时状态”的紧迫感。

为超越 OpenAI GPT-4,Meta 不惜使用争议数据训练 Llama 3

这份竞争心态,在Meta生成式AI副总裁艾哈迈德·阿尔-达赫勒的一段内部消息中体现得淋漓尽致。2023年10月,他对研究员雨果·图夫龙直言不讳:“实话实说……我们的目标必须是GPT-4。我们马上就能调度64,000个GPU!我们必须学会如何构建尖端技术,并且要赢下这场竞赛。”

这很有意思。要知道,Meta一向以推动“开源AI”的旗手形象示人,但其内部团队的视线,显然紧紧锁定了那些不公开模型权重的对手。无论是Anthropic的Claude,还是OpenAI的GPT-4,都被Meta内部视作必须对标和超越的行业标杆。

更有甚者,在讨论开源领域的同行时,Meta对法国AI明星初创公司Mistral的态度几乎可以说是“蔑视”。作为开源赛道的主要竞争者之一,Mistral似乎并未被放在眼里。阿尔-达赫勒在消息中干脆地表示:“Mistral对我们来说不值一提。我们应该能做得更好。”

当前AI军备竞赛已白热化,而Meta的内部通信进一步证实,其AI领导层秉持着高度激进的竞争策略。在多次交流中,负责人提到,为了获取训练Llama模型所需的数据,团队表现得“非常激进”。一位高管的内部邮件甚至写道:“Llama 3几乎是我唯一关心的事情。”这种all in的心态,无疑为后续的争议埋下了伏笔。

果然,这种激进的策略很快触碰了法律红线。本案检察官指控,Meta高管在急于推出模型的过程中,涉嫌使用了受版权保护的书籍进行训练。内部讨论记录也显示,研究员图夫龙曾指出,用于训练Llama 2的数据集“质量不佳”,并探讨如何优化数据源来提升Llama 3。随后,他与阿尔-达赫勒讨论了使用LibGen数据集的可能性——该库包含了多家知名教育出版商的受版权作品。阿尔-达赫勒当时的问题非常直接:“我们是否有合适的数据集?有没有什么数据是你想用却因为某些愚蠢的原因无法使用的?” 这句话,几乎成了这场版权诉讼的最佳注脚。

这种对数据的渴求和对性能的极致追求,压力显然来自最高层。Meta首席执行官马克·扎克伯格曾公开表示,正全力缩小Llama与OpenAI、谷歌等闭源模型的性能差距。内部信息显示,公司上下为实现这一目标承受着巨大压力。扎克伯格在2024年7月的一封信中展望:“今年,Llama 3已经能够与最先进的模型竞争,并在某些领域领先。从明年开始,我们预计未来的Llama模型将成为行业中最先进的。”这番话,既是对团队的鼓舞,也像是一道必须完成的军令状。

时间来到2024年4月,Meta如期发布了Llama 3。从结果看,这款开源模型在性能上确实与谷歌、OpenAI和Anthropic的闭源模型打得有来有回,并成功超越了Mistral的开源模型。然而,光环之下,阴影犹存。用于训练模型的数据,尽管据称获得了扎克伯格的批准,但其模糊的版权状态,正使Meta陷入多起诉讼的旋涡之中。这场为超越GPT-4而发起的冲锋,其代价或许正在逐步浮现。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策