GLM5.1超级玛丽深度测评：新版本亮点与实用性分析

2026-06-17阅读 0热度 0

超级玛丽

# Claude Fable 5 精确复现经典《超级马里奥》，还原度令人惊叹先上视频。视频看完了，部分读者可能觉得效果平平。但评估需要参照基准。昨日已对比 MiMo 的产出，并介绍了 MiMo Code。今天轮到 GLM 5.1 接受测试。从评测覆盖面看，本次几乎囊括主流国内外大模型。坦白说，AI 尚处早期阶段，投入一两年做系统化对比测试，是否值得？非常值得。未来谁最精通顶级 AI，谁就能抢占技术制高点。回到《超级马里奥》案例。除 Claude 系列外，整轮测试中只有 GLM 5.1 的生成结果令人眼前一亮。据传 GLM 5.2 即将发布，先用 5.1 建立基准，等 5.2 到位后再测一轮，量化迭代进步。下面直接展示最终效果，随后拆解制作流程——既要知其然，也要知其所以然。 ## 效果展示最终效果大致如下。是不是有点“众”不同？先说亮点： * 地图轮廓基本可辨识为马里奥风格。 * 核心操作与游戏逻辑通畅，中途不会卡死。 * 可一路推进至终点，成功通关。仅这三点，已大幅领先多数模型。再列举不足之处： * 跳跃高度严重失真，远超原版物理逻辑。 * 地图细节与原版差异明显。 * 存在明显 bug：两只蘑菇重叠，踩踏后直接损失一条命。能达到几分、与 Fable 差距多大，一目了然。Fable 的还原度处于大气层级别——细节丰富且趣味性高，可在 TOPAI 上在线体验完整效果。目前，8 个模型的测试结果已全部上传。 ## 制作过程效果已清晰呈现，下面展示制作流程——仅用一句话指令实现这个效果。工具仍为 Claude Code，通过 JCode 一键配置、一键启动、一键接入 GLM 5.1 官方 API。配置打开后，模型已设为 GLM-5.1，思考强度为 Xhigh。随后输入需求。需求描述极其简洁，细节交给模型自主补全——有时指令过细反而限制其发挥。回车提交后，只需等待。从截图可见，模型整整思考了 6 分 23 秒才开始输出内容。等待时间稍长，但尚在合理范围。最终耗时 22 分钟完成整个游戏。整体大约 28 分钟，与 Claude Fable 耗时接近。为何 GLM 5.1 的产出在众多模型中相对突出？推测主要原因是其中途进行了大量自检与修正。从完整对话历史能看到多处“检测、修正、验证”环节。当前新一代模型与智能体普遍内置了这种自我验证机制。交付清单如下：清单显示：单文件，无依赖，约 1982 行。模型执行了大量状态检测，这一方面执行得相当扎实。因此一直强调国内综合性最强的模型是智谱 GLM 系列，尤其是 5.0 之后的版本。当然，与国际顶级模型仍存在差距。从代码行数即可看出：Claude Fable 仅用 700 多行就实现了更优效果，而 GLM 5.1 用了将近 2000 行，接近三倍。编写过程序的人都明白：同一功能，用更少代码实现往往意味着更扎实的技术功底。多数情况下，精简代码本身就是极高难度的任务，需要大量算法或业务逻辑的优化。 GLM 5.1 这一轮，相对而言还算能看，不再多吐槽。具体效果可直接在网页上体验。想看源代码，右键即可查看，未做压缩处理。其他模型的效果也已一并上传。将逐一介绍，有兴趣可先试玩，确实很有意思。Claude Fable 是真正可玩的，直通四关。而有些模型纯粹是来搞笑的，画面抽象到别有一番乐趣。

GLM5.1超级玛丽深度测评：新版本亮点与实用性分析

相关阅读

最新教程

最新资讯