Nano-Banana实测：谷歌神秘模型性能惊艳但存3大硬伤

2026-06-22阅读 0热度 0

最近，AI社区里悄悄冒出一个神秘的图像生成与编辑模型，叫 Nano-Banana。先总结几个要点：它在 LMArena 的“Battle”模式中被发现，但公开排行榜上不见踪影，也没有官方开发者出来认领。不过，网友们顺着各种蛛丝马迹，普遍猜测它出自谷歌之手——比如谷歌 AI Studio 的产品负责人 Logan Kilpatrick 在 X 上发了一个香蕉表情，DeepMind 产品经理 Naina Raisinghani 随后也贴出一张类似胶带香蕉艺术的图片，再加上谷歌过去习惯把小型模型称为“Nano”，而且生成图像的质感与 Imagen 或 Gemini 系列高度相似，这些线索串起来，指向性就很明显了。

这个模型的能力不止于简单的文生图。在文本编辑、风格融合、场景理解等多个维度上，它都表现得相当出彩。最亮眼的功能之一，是支持上传两张图片，再输入提示词将两者元素融合。举个例子：上传一摞书和卧室床头柜的照片，输入“把这摞书立起来，放在桌上两个书挡之间”，它能精准理解复杂的上下文指令，把横着叠放的书本立起来，再在两端加上书挡，稳稳当当地摆到柜子上去。

再比如，上传一张模特照和一张棒球帽图，输入“把棒球帽戴到女士头上”。帽子上有复杂的文字和图案刺绣，但编辑后的图片保留了所有细节，同时光线、视角、构图的整体一致性也保持得很好。

在产品照片、场景搭建图、广告等商业场景下，Nano-Banana 的表现也相当稳健。

当然，它也并非完美无缺。在某些情况下，生成的图像可能会出现反射、光照逻辑或物体位置不一致的问题，人物的手指偶尔也会变形。如果仔细看上图中生成的书籍，就会注意到书名部分出现了典型的“鬼画符”现象。

由于目前没有官方 API 或正式的官网链接，只能通过 LMArena 随机体验。换句话说，每次体验都得靠运气，相当不稳定。更让人头疼的是，网上已经冒出一堆假网站，声称提供 Nano-Banana 服务，不少网友被搞得真假难辨。

Nano-Banana 一手测评

我们自己也上手测了一把。打开 LMArena 官网，选择 Battle 模式，可以直接输入提示词进行文生图，也可以上传图片配合提示词做编辑。

页面会同时展示两个匿名模型生成的结果，只有选择其中质量更好的一张后，平台才会亮出对战双方的身份。

先试试文生图效果。输入同样的提示词：“以拍立得风格呈现一张肖像照。画面中是一位化妆师，长发蓬松卷曲，穿着oversize服装，面容精致，气质慵懒，对着镜头比出和平手势，整体氛围非常自由。图片带轻微的颗粒质感，色彩鲜艳生动。1:1比例。”第一幅是 Nano-Banana 生成的，第二幅来自 ChatGPT。前者背景里散落着眼影盘、指甲油等道具，更贴合“化妆师”的身份设定，人物动作和服装细节也更自然，手部没有明显瑕疵；后者的背景则相对单调，大拇指也有些虚化。

再来看看它的图片编辑能力。上传一张旧金山阿拉莫广场的野餐照片，输入提示词：“在公园里添加一些类人机器人，让它们与环境融为一体。”乍看之下还以为 Nano-Banana 没响应，结果发现画面右侧有一个正在走路的类人机器人，完全融入场景，毫无违和感。

接下来上传一张人物摄影，让 Nano-Banana 逆向还原创作过程。提示词：“展示拍摄前的布景过程：模特坐着刷手机，一位女士在她身后整理头发，一位男子站在梯子上挂窗帘，整个工作室背景一览无余。”效果相当逼真，仿佛真的看到了幕后场景。

有网友用它让碧梨和迈克尔·杰克逊实现跨时空自拍。我们也尝试了一下，上传马斯克和奥特曼的照片，输入提示词：“两人开心地自拍一张。”Nano-Banana 确实生成了一张自拍照，马斯克的形象和动作几乎挑不出毛病，但奥特曼却变了样。

为了不“冤枉”它，我们又给了它一次机会，结果还是翻车了。

难度继续升级。上传小扎、马斯克的肖像照和一张风景照，让 Nano-Banana 把两个人自然地放入风景中。对比之下，Gemini 2.0 Flash 生成的效果完全认不出这两人，而 Nano-Banana 虽然手指细节仍有瑕疵，但姿态和融合度明显高出不少。

进阶玩法

如果把 Nano-Banana 和谷歌的 Veo 3 结合起来，能碰撞出什么火花？a16z 合伙人 Justine Moore 就设计了一套新工作流，用于制作长视频。她构建了一个游戏或电影中的潜行任务场景：角色从昏暗的博物馆中偷取一幅名画，触发激光警报。具体操作是：提取视频第一段的最后一帧，上传到 Nano-Banana 生成下一个场景（例如“角色转向走廊”），再用 Veo 3 对新生成的帧进行动画制作。

另一位 X 网友 @ZHO_ZHO_ZHO 发现了更有意思的玩法——把插画变成手办。上传一张图片，输入提示词：“将此图转成角色手办。背后放一个印有角色图案的盒子，一台电脑显示 Blender 建模过程。盒子前方放一个圆形塑料底座，手办站在上面。PVC 材质要清晰可见，场景尽量室内化。”据该博主评测，Nano-Banana 生成的图片几乎没有 AI 感，五官和细节保留得很好，真实感十足。然后再用 Veo 3 制作成 8 秒视频，提示词：“用双手拿起手办，多角度展示。”评论区有不少网友跟着尝试，比如哪吒抱拳、哆啦 A 梦转身的版本——正面看尾巴正常，但转过去就会变形。

我们也复刻了一把。上传一张 Q 版插画，输入上述提示词。效果如下：

然后打开 Gemini 2.5 Pro，选择视频模式，上传生成的图片，输入提示词，等大约一分钟，就能得到一段 8 秒的视频。

上周末，谷歌 Veo 3 对所有 Gemini 用户免费开放了 AI 视频生成功能。不过，这项免费体验只持续到太平洋时间 8 月 24 日晚上 10 点（北京时间 8 月 25 日上午 1 点）。期间，免费用户每天最多生成 3 个 8 秒片段，每个视频自动带音频。通常，Veo 3 的视频生成仅对 Google AI Pro 或 Ultra 订阅用户开放——Pro 用户每天可生成 3 个，Ultra 用户则是 10 个。

Nano-Banana实测：谷歌神秘模型性能惊艳但存3大硬伤

Nano-Banana 一手测评

进阶玩法

相关阅读

最新教程

最新资讯