Nano-Banana实测:谷歌神秘模型性能惊艳但存3大硬伤

2026-06-22阅读 0热度 0
ai

最近,AI社区里悄悄冒出一个神秘的图像生成与编辑模型,叫 Nano-Banana。先总结几个要点:它在 LMArena 的“Battle”模式中被发现,但公开排行榜上不见踪影,也没有官方开发者出来认领。不过,网友们顺着各种蛛丝马迹,普遍猜测它出自谷歌之手——比如谷歌 AI Studio 的产品负责人 Logan Kilpatrick 在 X 上发了一个香蕉表情,DeepMind 产品经理 Naina Raisinghani 随后也贴出一张类似胶带香蕉艺术的图片,再加上谷歌过去习惯把小型模型称为“Nano”,而且生成图像的质感与 Imagen 或 Gemini 系列高度相似,这些线索串起来,指向性就很明显了。

这个模型的能力不止于简单的文生图。在文本编辑、风格融合、场景理解等多个维度上,它都表现得相当出彩。最亮眼的功能之一,是支持上传两张图片,再输入提示词将两者元素融合。举个例子:上传一摞书和卧室床头柜的照片,输入“把这摞书立起来,放在桌上两个书挡之间”,它能精准理解复杂的上下文指令,把横着叠放的书本立起来,再在两端加上书挡,稳稳当当地摆到柜子上去。

再比如,上传一张模特照和一张棒球帽图,输入“把棒球帽戴到女士头上”。帽子上有复杂的文字和图案刺绣,但编辑后的图片保留了所有细节,同时光线、视角、构图的整体一致性也保持得很好。

在产品照片、场景搭建图、广告等商业场景下,Nano-Banana 的表现也相当稳健。

当然,它也并非完美无缺。在某些情况下,生成的图像可能会出现反射、光照逻辑或物体位置不一致的问题,人物的手指偶尔也会变形。如果仔细看上图中生成的书籍,就会注意到书名部分出现了典型的“鬼画符”现象。

由于目前没有官方 API 或正式的官网链接,只能通过 LMArena 随机体验。换句话说,每次体验都得靠运气,相当不稳定。更让人头疼的是,网上已经冒出一堆假网站,声称提供 Nano-Banana 服务,不少网友被搞得真假难辨。

Nano-Banana 一手测评

我们自己也上手测了一把。打开 LMArena 官网,选择 Battle 模式,可以直接输入提示词进行文生图,也可以上传图片配合提示词做编辑。

页面会同时展示两个匿名模型生成的结果,只有选择其中质量更好的一张后,平台才会亮出对战双方的身份。

先试试文生图效果。输入同样的提示词:“以拍立得风格呈现一张肖像照。画面中是一位化妆师,长发蓬松卷曲,穿着oversize服装,面容精致,气质慵懒,对着镜头比出和平手势,整体氛围非常自由。图片带轻微的颗粒质感,色彩鲜艳生动。1:1比例。”第一幅是 Nano-Banana 生成的,第二幅来自 ChatGPT。前者背景里散落着眼影盘、指甲油等道具,更贴合“化妆师”的身份设定,人物动作和服装细节也更自然,手部没有明显瑕疵;后者的背景则相对单调,大拇指也有些虚化。

再来看看它的图片编辑能力。上传一张旧金山阿拉莫广场的野餐照片,输入提示词:“在公园里添加一些类人机器人,让它们与环境融为一体。”乍看之下还以为 Nano-Banana 没响应,结果发现画面右侧有一个正在走路的类人机器人,完全融入场景,毫无违和感。

接下来上传一张人物摄影,让 Nano-Banana 逆向还原创作过程。提示词:“展示拍摄前的布景过程:模特坐着刷手机,一位女士在她身后整理头发,一位男子站在梯子上挂窗帘,整个工作室背景一览无余。”效果相当逼真,仿佛真的看到了幕后场景。

有网友用它让碧梨和迈克尔·杰克逊实现跨时空自拍。我们也尝试了一下,上传马斯克和奥特曼的照片,输入提示词:“两人开心地自拍一张。”Nano-Banana 确实生成了一张自拍照,马斯克的形象和动作几乎挑不出毛病,但奥特曼却变了样。

为了不“冤枉”它,我们又给了它一次机会,结果还是翻车了。

难度继续升级。上传小扎、马斯克的肖像照和一张风景照,让 Nano-Banana 把两个人自然地放入风景中。对比之下,Gemini 2.0 Flash 生成的效果完全认不出这两人,而 Nano-Banana 虽然手指细节仍有瑕疵,但姿态和融合度明显高出不少。

进阶玩法

如果把 Nano-Banana 和谷歌的 Veo 3 结合起来,能碰撞出什么火花?a16z 合伙人 Justine Moore 就设计了一套新工作流,用于制作长视频。她构建了一个游戏或电影中的潜行任务场景:角色从昏暗的博物馆中偷取一幅名画,触发激光警报。具体操作是:提取视频第一段的最后一帧,上传到 Nano-Banana 生成下一个场景(例如“角色转向走廊”),再用 Veo 3 对新生成的帧进行动画制作。

另一位 X 网友 @ZHO_ZHO_ZHO 发现了更有意思的玩法——把插画变成手办。上传一张图片,输入提示词:“将此图转成角色手办。背后放一个印有角色图案的盒子,一台电脑显示 Blender 建模过程。盒子前方放一个圆形塑料底座,手办站在上面。PVC 材质要清晰可见,场景尽量室内化。”据该博主评测,Nano-Banana 生成的图片几乎没有 AI 感,五官和细节保留得很好,真实感十足。然后再用 Veo 3 制作成 8 秒视频,提示词:“用双手拿起手办,多角度展示。”评论区有不少网友跟着尝试,比如哪吒抱拳、哆啦 A 梦转身的版本——正面看尾巴正常,但转过去就会变形。

我们也复刻了一把。上传一张 Q 版插画,输入上述提示词。效果如下:

然后打开 Gemini 2.5 Pro,选择视频模式,上传生成的图片,输入提示词,等大约一分钟,就能得到一段 8 秒的视频。

上周末,谷歌 Veo 3 对所有 Gemini 用户免费开放了 AI 视频生成功能。不过,这项免费体验只持续到太平洋时间 8 月 24 日晚上 10 点(北京时间 8 月 25 日上午 1 点)。期间,免费用户每天最多生成 3 个 8 秒片段,每个视频自动带音频。通常,Veo 3 的视频生成仅对 Google AI Pro 或 Ultra 订阅用户开放——Pro 用户每天可生成 3 个,Ultra 用户则是 10 个。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策