GPT-5评测：缩放定律失效引争议，AGI之路遇瓶颈？

2026-05-21阅读 0热度 0

人工智能

极客网·人工智能8月15日 2025年8月，OpenAI终于揭开了GPT-5的神秘面纱。然而，市场期待中的“革命性突破”并未到来，随之而来的，是“AI进步失速”与“缩放定律失效”的讨论再度甚嚣尘上。

GPT-5实测：亮点有限，失望声四起

实际表现究竟如何？YouTube知名科技播主Mrwhosetheboss的测试给出了一份混合答卷。在某些任务上，比如创建象棋游戏，GPT-5确实优于GPT-4o-mini-high；在撰写视频脚本方面，它也强于GPT-4o，并且能根据任务自动匹配最优模型。这些算是不错的亮点。

但问题同样明显。在生成YouTube视频缩略图、设计生日派对邀请函等更具创意或视觉要求的场景中，GPT-5的表现反而不及前代GPT-4o。更令人担忧的是，它似乎更容易被诱导编造事实。

这份“喜忧参半”的成绩单，迅速点燃了用户和专家的不满情绪。有付费用户直言其“是垃圾”，而人工智能学者Gary Marcus的批评则更为尖锐，称GPT-5“过度炒作且令人失望”。回想2023年GPT-4相对于GPT-3那种堪称“飞跃”的进步，GPT-5的提升似乎仅停留在基准测试分数更高、文字表达更流畅这些细节层面，缺乏那种令人眼前一亮的突破性进展。

大模型进步“踩刹车”：从“造汽车”到“修汽车”

这里有个行业内的经典比喻：预训练大模型好比“生产汽车本身”，而训练后的各种优化则像是“给汽车升级性能”。过去几年，OpenAI等公司通过不断扩大预训练规模，就像不断推出性能更强的“新车”。但现在，这种“造新车”的速度明显慢了下来。

一个明显的信号是，2024年春季，OpenAI CEO山姆・奥特曼曾向工程师团队承诺“下一代模型将远超GPT-4”。然而，2025年秋季落地的GPT-5，显然未能完全兑现这一承诺。亚利桑那州立大学的研究人员进一步指出，大模型所谓的“推理能力”可能只是一种“脆弱的幻影”——它仅在训练数据覆盖的范围内有效，一旦问题超出其边界，这种能力便会失效。换句话说，基准测试的高分与解决真实世界复杂问题的能力，并非一回事。

Gary Marcus的观察则更为直白：“2025年的大模型分数是更高了，但没有哪家AI公司敢说，它比2024年的模型‘实用得多’。”行业的关注点，正悄然从“如何造出更强的模型”转向“如何优化现有的模型”。工程师的角色，也仿佛从雄心勃勃的“汽车制造商”，转变为了精雕细琢的“汽车修理工”。

缩放定律的兴衰：从“圭臬”到“失效”

曾几何时，“缩放定律”是驱动整个AI行业狂飙突进的核心逻辑。2020年1月，OpenAI发布《神经语言模型的缩放定律》报告（现任Anthropic CEO的Dario Amodei也参与了撰写），明确提出：只要持续扩大模型规模、增强训练强度，其性能就会随之持续提升。

随后的发展似乎印证了这一点。GPT-3的规模是GPT-2的10倍，性能实现了质的飞跃；2023年GPT-4的再次大幅进步，叠加ChatGPT用户破亿的全球热度，风险资本大规模涌入，AI行业迎来了一场名副其实的“大跃进”。山姆・奥特曼甚至在《万物的摩尔定律》博文中断言，AI将“迅猛改变世界”，通用人工智能（AGI）似乎触手可及。

然而，反对的声音从未消失。纽约大学教授Gary Marcus就曾直言，“缩放定律只是一种观测结果，而非普适规律”。这一观点在当时不仅遭到了Greg Brockman、Yann LeCun乃至马斯克等行业领袖的反驳，他本人甚至被贴上了“机器学习产业异类”的标签。

时至今日，反对者的声音正在得到现实的验证。TechCrunch指出，行业已普遍承认一个事实：仅靠堆砌算力和数据，无法让大模型变成“全知的数字神灵”。自GPT-4发布两年多来，OpenAI再未推出能与之比肩的重磅模型，“缩放定律失效”已成为越来越多人的共识。

进步失速冲击AI经济：万亿梦碎，风险浮现

如果缩放定律真的走向终结，那么建立在它之上的“AI经济泡沫”或将面临破裂的风险。科技分析师Ed Zitron与Gary Marcus持相似观点，他们认为：“生成式AI的市场规模大约在500亿到1000亿美元之间，远达不到此前狂热炒作时所预期的‘万亿级别’。”

这意味着，未来几年我们看到的AI工具，很可能只会有“稳定但渐进”的改进。它们会被定期使用，但用途有限；既不会如某些预言般大规模冲击就业市场，AGI的实现之路也将显得更加漫长和不切实际。

更严峻的风险潜藏在资本市场。目前，美国股市中高达35%的市值集中于七大科技巨头。过去18个月，这些企业在AI领域投入了惊人的5600亿美元，但其AI相关收入仅约350亿美元。这种“高投入、低回报”的矛盾若长期持续，很可能引发资本市场的连锁反应。

当然，乐观的视角依然存在。有观点认为，21世纪30年代仍有可能孕育出AGI的雏形。即便无法实现“所有人类工作自动化”，当前的技术瓶颈也能倒逼整个行业探索更复杂的解决方案，推动技术发展从单纯的“规模驱动”转向更精细的“效率驱动”与“创新驱动”。这条路或许更慢，但可能也更稳。

GPT-5评测：缩放定律失效引争议，AGI之路遇瓶颈？

GPT-5实测：亮点有限，失望声四起

大模型进步“踩刹车”：从“造汽车”到“修汽车”

缩放定律的兴衰：从“圭臬”到“失效”

进步失速冲击AI经济：万亿梦碎，风险浮现

相关阅读

最新教程

最新资讯