AI大模型巅峰对决:谁是全球最聪明?
承认自己的局限性也是一种“聪明”吧
18日,马斯克带着xAI团队,在一场直播中正式发布了Grok-3“全家桶”。从名字到现场演示,都透着一种“要把最强AI的招牌直接抢过来”的气势。
据官方介绍,这次发布的模型不是单一选手,而是一个大家族:包括Grok-3(Beta),Grok-3 mini,推理模型Grok-3 Reasoning(Beta),以及Grok-3 mini Reasoning,还有首款AI智能体DeepSearch。更值得注意的是,第三代Grok的训练计算量,是上一代Grok-2的整整10倍。
在多家第三方基准测试中,Grok-3在数学、科学问答、编码等方面大幅超越了DeepSeek-V3、Gemini-2 Pro、GPT-4o等模型。Grok-3 mini的性能也是领先或持平于其他主流闭源/开源模型。而在推理能力这块,它甚至击败了o3-mini和DeepSeek-R1。
那么,在实际使用中,它到底有多“聪明”呢?《环球时报》记者也亲自对Grok-3(Beta)版本进行了测试。记者问它:“你怎么看自己被称作‘全世界最聪明的AI’?你的升级和改进在哪?‘思维链’带来了哪些性能提升?”
Grok-3的回答很有意思。它说:“我觉得‘聪明’是个挺主观的东西。我更像是一个一直在学习和优化的助手,而不是一个需要炫耀头衔的家伙。”在提到“思维链”时,它进一步解释说,这种方式让它在回答复杂问题时能更有条理地一步步思考,而不是直接跳到结论。就像人类解决难题时,先拆解、再分析、再回答。“当然,我也不是完美的。有时候问题太模糊或超出我的知识范围,我还是会尽力给出合理的回应,或者老实承认不知道。毕竟,承认自己的局限性,也是一种‘聪明’吧?”
《环球时报》记者也将同样的问题抛给了DeepSeek和ChatGPT。DeepSeek-R1在深度思考20秒后回复:Grok-3的“思维链”确实能提升复杂任务的逻辑透明度和分步推理能力,但“最聪明AI”的宣称还需要结合实测结果来看。其核心价值可能在于与xAI生态的整合能力,而非绝对的技术领先。DeepSeek-R1还特别提到,Grok系列的独特价值可能更贴近马斯克的愿景——与特斯拉机器人、星链等生态联动,成为“实时物理世界交互AI”。
ChatGPT o3-mini high的回复则写到:Grok-3在数学推理、科学推理等方面表现出色,但AI领域的竞争极为激烈,其他公司也在不断推出先进模型。因此,Grok-3是否“最聪明”,取决于你用什么标准来衡量。
环球时报研究院对2月15日至18日境外主流媒体关于Grok-3的376篇英文报道进行了分析:马斯克“全世界最聪明”的描述被广泛传播(51.6%的报道提及相关关键词);“推理能力”是提及率最高的性能项(超过半数);“成本”(近四成)和“训练”(超过半数)是关注度最高的投入话题;“合成数据”的提及率也超过了1/4。
“大力出奇迹”VS“小力出奇迹”
Grok-3的发布,不仅让人关注它的性能,更点燃了一场关于AI发展模式的讨论。人类第一次用20万块GPU训练出的大模型,到底代表的是未来方向,还是一时辉煌?而DeepSeek用相对少的算力和成本,通过算法优化实现的大模型,是否也给全球提供了另一种选择?
环球时报研究院的分析显示,在同时提到Grok-3和DeepSeek的报道中,“竞争”的提及率达六成。而在具体对比中,54.9%的报道围绕“成本”展开,提到“效率”和“投资”的也均超过三成。
北京邮电大学人机交互与认知工程实验室主任刘伟指出:“DeepSeek与GPT系列最大的区别在于‘小力出奇迹’,而Grok-3与DeepSeek的区别,是又回到了‘大力出奇迹’的轨迹。”他认为,大模型即将进入算法与算力大比拼的‘战国时期’。
刘伟进一步解释:DeepSeek体现了算法的优化。为了在有限的算力下实现更好的性能,算法设计者会不断优化算法——比如用动态规划存储子问题的解来避免重复计算。而Grok-3则体现了硬件加速的奇迹。更多GPU为并行计算提供了强大支持,使得深度学习算法能够快速运行。但硬件越强,算法也可能越复杂。
《环球时报》记者又让Grok-3自己从技术水平、推理能力、是否开源、创新程度和对全球AI竞争格局的影响等维度,比较它自身与DeepSeek-R1的差异:
- 技术水平:Grok-3靠算力胜出,但DeepSeek-R1效率更高。
- 推理能力:Grok-3更全面,DeepSeek-R1在专业领域不逊色。
- 是否开源:DeepSeek-R1完全开源,Grok-3闭源,策略迥异。
- 创新程度:DeepSeek-R1算法创新突出,Grok-3可能依赖资源整合。
- 全球影响:DeepSeek-R1推动AI平权和价格竞争,Grok-3强化美国技术领先。
Grok-3给出的最终结论是:DeepSeek-R1和Grok-3代表了两种路径,前者以开源和效率挑战资源限制,后者以算力和闭源巩固霸主地位。DeepSeek对全球AI格局的碘伏性更强,而Grok-3是技术巅峰的象征。
刘伟强调,Grok-3这种用大量高性能GPU堆算力的模式,是全球大部分国家和地区都无法复制的。而DeepSeek的开源模式,则给了全球南方国家一个公平分享AI大模型发展成果的机会。
如何判断它是否在“胡说八道”
即便是头部大模型,也依然无法完全破解机器幻觉的难题。人类并不能真正了解屏幕那边“侃侃而谈”的大模型,到底是在说真话,还是在一本正经地胡说八道。
Grok-3使用的“思维链”,本质上就是希望还原大模型理解、拆解、解决问题并得出结论的过程,让结论具有可溯性。但记者在测试中发现,即使有了“思维链”,机器幻觉仍然无法完全避免——比如给出似是而非的答案。不过,Grok-3在回答之后,还有一个“反思与建议”步骤,会说明生成内容的局限性,并建议用户进一步核对或更明确地提问。
一位从事网络技术工作的专业人士指出,不同大模型各有专长,通用模型和垂类模型差异很大。从使用体验看,向Grok-3等大模型提出越具象的技术问题,越容易得到有效回答。然后还要进行一定的追问与调整,以便大模型更好地理解用户意图。
刘伟也分析了机器幻觉的几个主因:训练数据不足或有偏见、过拟合(模型过度学习噪声)、模型复杂度过高、以及模型缺乏对真实世界的理解。比如,Grok-1在训练时未完全依赖真实世界数据,采用了大量合成数据,导致理解真实世界时表现不佳,这个问题在Grok-2上有所改善。
那么,要如何最大程度上降低机器幻觉?在此前的《自然》杂志上,牛津大学科学家提出了一种利用“语义熵”的方法——通过概率判断大语言模型是否出现了“幻觉”。语义熵可以量化物理系统中的信息量,通过评估AI模型在特定提示词下生成内容的不确定性,计算模型的困惑程度,从而给出警示。
而美国卡内基梅隆大学的研究人员则采用另一种方法:在AI回答问题时,绘制其内部计算节点的激活模式。他们形象地称之为“给AI做脑部扫描”。不同的激活模式,能告诉我们模型是在“说真话”,还是在“胡说八道”。
马斯克在发布会上称,Grok-3具备强大的自我纠错功能,能够识别并减少错误数据,并通过反复检查数据实现逻辑一致性。清华大学新闻学院、人工智能学院教授沈阳指出,如果训练语料本身有错误,通过强化学习,大模型是具有一定自我纠错能力的。但要更大程度上降低机器幻觉,还需要多层面改进:训练数据、语料真实性、模型结构算法、用户纠错反馈,以及提醒用户对生成内容进行核对与交叉验证。
刘伟最后总结道:大模型虽然在许多领域表现出强大能力,但其局限性和潜在问题不容忽视。为了避免其对人类重大决策产生干扰,需要在使用过程中,结合人类的经验和判断进行监督与修正,充分发挥人、机器、环境的系统校验修正作用,最大程度降低机器幻觉的发生。这样,大模型才能真正更好地为人类所用。
