AI大模型巅峰对决：谁是全球最聪明？

2026-06-18阅读 0热度 0

人工智能

承认自己的局限性也是一种“聪明”吧

18日，马斯克带着xAI团队，在一场直播中正式发布了Grok-3“全家桶”。从名字到现场演示，都透着一种“要把最强AI的招牌直接抢过来”的气势。

据官方介绍，这次发布的模型不是单一选手，而是一个大家族：包括Grok-3（Beta），Grok-3 mini，推理模型Grok-3 Reasoning（Beta），以及Grok-3 mini Reasoning，还有首款AI智能体DeepSearch。更值得注意的是，第三代Grok的训练计算量，是上一代Grok-2的整整10倍。

在多家第三方基准测试中，Grok-3在数学、科学问答、编码等方面大幅超越了DeepSeek-V3、Gemini-2 Pro、GPT-4o等模型。Grok-3 mini的性能也是领先或持平于其他主流闭源/开源模型。而在推理能力这块，它甚至击败了o3-mini和DeepSeek-R1。

那么，在实际使用中，它到底有多“聪明”呢？《环球时报》记者也亲自对Grok-3（Beta）版本进行了测试。记者问它：“你怎么看自己被称作‘全世界最聪明的AI’？你的升级和改进在哪？‘思维链’带来了哪些性能提升？”

Grok-3的回答很有意思。它说：“我觉得‘聪明’是个挺主观的东西。我更像是一个一直在学习和优化的助手，而不是一个需要炫耀头衔的家伙。”在提到“思维链”时，它进一步解释说，这种方式让它在回答复杂问题时能更有条理地一步步思考，而不是直接跳到结论。就像人类解决难题时，先拆解、再分析、再回答。“当然，我也不是完美的。有时候问题太模糊或超出我的知识范围，我还是会尽力给出合理的回应，或者老实承认不知道。毕竟，承认自己的局限性，也是一种‘聪明’吧？”

资料图

《环球时报》记者也将同样的问题抛给了DeepSeek和ChatGPT。DeepSeek-R1在深度思考20秒后回复：Grok-3的“思维链”确实能提升复杂任务的逻辑透明度和分步推理能力，但“最聪明AI”的宣称还需要结合实测结果来看。其核心价值可能在于与xAI生态的整合能力，而非绝对的技术领先。DeepSeek-R1还特别提到，Grok系列的独特价值可能更贴近马斯克的愿景——与特斯拉机器人、星链等生态联动，成为“实时物理世界交互AI”。

ChatGPT o3-mini high的回复则写到：Grok-3在数学推理、科学推理等方面表现出色，但AI领域的竞争极为激烈，其他公司也在不断推出先进模型。因此，Grok-3是否“最聪明”，取决于你用什么标准来衡量。

环球时报研究院对2月15日至18日境外主流媒体关于Grok-3的376篇英文报道进行了分析：马斯克“全世界最聪明”的描述被广泛传播（51.6%的报道提及相关关键词）；“推理能力”是提及率最高的性能项（超过半数）；“成本”（近四成）和“训练”（超过半数）是关注度最高的投入话题；“合成数据”的提及率也超过了1/4。

“大力出奇迹”VS“小力出奇迹”

Grok-3的发布，不仅让人关注它的性能，更点燃了一场关于AI发展模式的讨论。人类第一次用20万块GPU训练出的大模型，到底代表的是未来方向，还是一时辉煌？而DeepSeek用相对少的算力和成本，通过算法优化实现的大模型，是否也给全球提供了另一种选择？

环球时报研究院的分析显示，在同时提到Grok-3和DeepSeek的报道中，“竞争”的提及率达六成。而在具体对比中，54.9%的报道围绕“成本”展开，提到“效率”和“投资”的也均超过三成。

北京邮电大学人机交互与认知工程实验室主任刘伟指出：“DeepSeek与GPT系列最大的区别在于‘小力出奇迹’，而Grok-3与DeepSeek的区别，是又回到了‘大力出奇迹’的轨迹。”他认为，大模型即将进入算法与算力大比拼的‘战国时期’。

刘伟进一步解释：DeepSeek体现了算法的优化。为了在有限的算力下实现更好的性能，算法设计者会不断优化算法——比如用动态规划存储子问题的解来避免重复计算。而Grok-3则体现了硬件加速的奇迹。更多GPU为并行计算提供了强大支持，使得深度学习算法能够快速运行。但硬件越强，算法也可能越复杂。

《环球时报》记者又让Grok-3自己从技术水平、推理能力、是否开源、创新程度和对全球AI竞争格局的影响等维度，比较它自身与DeepSeek-R1的差异：

技术水平：Grok-3靠算力胜出，但DeepSeek-R1效率更高。
推理能力：Grok-3更全面，DeepSeek-R1在专业领域不逊色。
是否开源：DeepSeek-R1完全开源，Grok-3闭源，策略迥异。
创新程度：DeepSeek-R1算法创新突出，Grok-3可能依赖资源整合。
全球影响：DeepSeek-R1推动AI平权和价格竞争，Grok-3强化美国技术领先。

Grok-3给出的最终结论是：DeepSeek-R1和Grok-3代表了两种路径，前者以开源和效率挑战资源限制，后者以算力和闭源巩固霸主地位。DeepSeek对全球AI格局的碘伏性更强，而Grok-3是技术巅峰的象征。

刘伟强调，Grok-3这种用大量高性能GPU堆算力的模式，是全球大部分国家和地区都无法复制的。而DeepSeek的开源模式，则给了全球南方国家一个公平分享AI大模型发展成果的机会。

如何判断它是否在“胡说八道”

即便是头部大模型，也依然无法完全破解机器幻觉的难题。人类并不能真正了解屏幕那边“侃侃而谈”的大模型，到底是在说真话，还是在一本正经地胡说八道。

Grok-3使用的“思维链”，本质上就是希望还原大模型理解、拆解、解决问题并得出结论的过程，让结论具有可溯性。但记者在测试中发现，即使有了“思维链”，机器幻觉仍然无法完全避免——比如给出似是而非的答案。不过，Grok-3在回答之后，还有一个“反思与建议”步骤，会说明生成内容的局限性，并建议用户进一步核对或更明确地提问。

一位从事网络技术工作的专业人士指出，不同大模型各有专长，通用模型和垂类模型差异很大。从使用体验看，向Grok-3等大模型提出越具象的技术问题，越容易得到有效回答。然后还要进行一定的追问与调整，以便大模型更好地理解用户意图。

刘伟也分析了机器幻觉的几个主因：训练数据不足或有偏见、过拟合（模型过度学习噪声）、模型复杂度过高、以及模型缺乏对真实世界的理解。比如，Grok-1在训练时未完全依赖真实世界数据，采用了大量合成数据，导致理解真实世界时表现不佳，这个问题在Grok-2上有所改善。

那么，要如何最大程度上降低机器幻觉？在此前的《自然》杂志上，牛津大学科学家提出了一种利用“语义熵”的方法——通过概率判断大语言模型是否出现了“幻觉”。语义熵可以量化物理系统中的信息量，通过评估AI模型在特定提示词下生成内容的不确定性，计算模型的困惑程度，从而给出警示。

而美国卡内基梅隆大学的研究人员则采用另一种方法：在AI回答问题时，绘制其内部计算节点的激活模式。他们形象地称之为“给AI做脑部扫描”。不同的激活模式，能告诉我们模型是在“说真话”，还是在“胡说八道”。

马斯克在发布会上称，Grok-3具备强大的自我纠错功能，能够识别并减少错误数据，并通过反复检查数据实现逻辑一致性。清华大学新闻学院、人工智能学院教授沈阳指出，如果训练语料本身有错误，通过强化学习，大模型是具有一定自我纠错能力的。但要更大程度上降低机器幻觉，还需要多层面改进：训练数据、语料真实性、模型结构算法、用户纠错反馈，以及提醒用户对生成内容进行核对与交叉验证。

刘伟最后总结道：大模型虽然在许多领域表现出强大能力，但其局限性和潜在问题不容忽视。为了避免其对人类重大决策产生干扰，需要在使用过程中，结合人类的经验和判断进行监督与修正，充分发挥人、机器、环境的系统校验修正作用，最大程度降低机器幻觉的发生。这样，大模型才能真正更好地为人类所用。

AI大模型巅峰对决：谁是全球最聪明？

承认自己的局限性也是一种“聪明”吧

“大力出奇迹”VS“小力出奇迹”

如何判断它是否在“胡说八道”

相关阅读

最新教程

最新资讯