GLM5.1超级玛丽深度测评:新版本亮点与实用性分析

2026-06-17阅读 0热度 0
超级玛丽
# Claude Fable 5 精确复现经典《超级马里奥》,还原度令人惊叹 先上视频。 视频看完了,部分读者可能觉得效果平平。但评估需要参照基准。昨日已对比 MiMo 的产出,并介绍了 MiMo Code。今天轮到 GLM 5.1 接受测试。 从评测覆盖面看,本次几乎囊括主流国内外大模型。坦白说,AI 尚处早期阶段,投入一两年做系统化对比测试,是否值得?非常值得。未来谁最精通顶级 AI,谁就能抢占技术制高点。 回到《超级马里奥》案例。除 Claude 系列外,整轮测试中只有 GLM 5.1 的生成结果令人眼前一亮。 据传 GLM 5.2 即将发布,先用 5.1 建立基准,等 5.2 到位后再测一轮,量化迭代进步。下面直接展示最终效果,随后拆解制作流程——既要知其然,也要知其所以然。 ## 效果展示 最终效果大致如下。 是不是有点“众”不同?先说亮点: * 地图轮廓基本可辨识为马里奥风格。 * 核心操作与游戏逻辑通畅,中途不会卡死。 * 可一路推进至终点,成功通关。 仅这三点,已大幅领先多数模型。再列举不足之处: * 跳跃高度严重失真,远超原版物理逻辑。 * 地图细节与原版差异明显。 * 存在明显 bug:两只蘑菇重叠,踩踏后直接损失一条命。 能达到几分、与 Fable 差距多大,一目了然。Fable 的还原度处于大气层级别——细节丰富且趣味性高,可在 TOPAI 上在线体验完整效果。 目前,8 个模型的测试结果已全部上传。 ## 制作过程 效果已清晰呈现,下面展示制作流程——仅用一句话指令实现这个效果。 工具仍为 Claude Code,通过 JCode 一键配置、一键启动、一键接入 GLM 5.1 官方 API。配置打开后,模型已设为 GLM-5.1,思考强度为 Xhigh。 随后输入需求。需求描述极其简洁,细节交给模型自主补全——有时指令过细反而限制其发挥。回车提交后,只需等待。 从截图可见,模型整整思考了 6 分 23 秒才开始输出内容。等待时间稍长,但尚在合理范围。最终耗时 22 分钟完成整个游戏。整体大约 28 分钟,与 Claude Fable 耗时接近。 为何 GLM 5.1 的产出在众多模型中相对突出?推测主要原因是其中途进行了大量自检与修正。从完整对话历史能看到多处“检测、修正、验证”环节。当前新一代模型与智能体普遍内置了这种自我验证机制。 交付清单如下: 清单显示:单文件,无依赖,约 1982 行。模型执行了大量状态检测,这一方面执行得相当扎实。因此一直强调国内综合性最强的模型是智谱 GLM 系列,尤其是 5.0 之后的版本。 当然,与国际顶级模型仍存在差距。从代码行数即可看出:Claude Fable 仅用 700 多行就实现了更优效果,而 GLM 5.1 用了将近 2000 行,接近三倍。编写过程序的人都明白:同一功能,用更少代码实现往往意味着更扎实的技术功底。多数情况下,精简代码本身就是极高难度的任务,需要大量算法或业务逻辑的优化。 GLM 5.1 这一轮,相对而言还算能看,不再多吐槽。具体效果可直接在网页上体验。想看源代码,右键即可查看,未做压缩处理。 其他模型的效果也已一并上传。将逐一介绍,有兴趣可先试玩,确实很有意思。Claude Fable 是真正可玩的,直通四关。而有些模型纯粹是来搞笑的,画面抽象到别有一番乐趣。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策