谷歌Nano Banana刷屏揭秘:团队背景全解析
香蕉造型也能秒变时尚礼服?Google 最新推出的生成式 AI 做到了。
在最新一期谷歌开发者节目中,Google DeepMind 团队首次完整展示了 Gemini 2.5 Flash Image —— 这款模型原生集成了图像生成与编辑能力。它不仅能在极短时间内输出高画质图像,还能在多轮对话中稳定保持场景与风格的一致性,是一次真正意义上的交互式图像生成突破。
值得关注的是,负责这一模型研发与产品化的核心团队也首次公开亮相。
核心团队成员深度解析
下面逐一介绍几位关键人物。
Logan Kilpatrick
作为 Google DeepMind 高级产品经理,Logan 全面负责 Google AI Studio 与 Gemini API 的产品策略与交付。在 AI 开发者社区,他几乎是标杆级人物——此前在 OpenAI 主导开发者关系,被圈内称为“LoganGPT”。更早前,他在 Apple 担任机器学习工程师,甚至在 NASA 担任过开源政策顾问。
在 Google,他主导了 Gemini 2.0 Flash 本地图像生成功能的发布,使开发者能够通过自然语言提示进行图像生成与编辑。多轮对话式编辑、图文交替生成、基于世界知识的图像生成,是这套系统的核心亮点。他几乎已成为 Google AI 的“非正式代言人”,持续在 X 平台输出产品更新与开发者资源。
Logan 毕业于哈佛与牛津,早期在 NASA 参与月球车软件开发,后在 Apple 训练机器学习模型。值得注意的是,他对 Julia 编程语言持积极态度,2024 年曾表示,直接追求人工超智能(ASI)而跳过中间阶段的做法“正变得越来越可行”。
Kaushik Shivakumar
Kaushik 是 Google DeepMind 的研究工程师,深耕机器人技术、人工智能与多模态学习领域。他在 UC Berkeley 获得计算机科学学士学位,后在 AUTOLab 实验室师从 Ken Goldberg 教授攻读硕士。研究生期间,他主要研究可变形物体操作、语言模型与强化学习在机器人上的应用。
加入 DeepMind 前,他在 Google Brain 担任软件工程实习生,研究深度神经网络的不确定性估计方法。此外,他在 UC Berkeley 的 RISE Lab 及 Snorkel AI 等机构也有丰富研究经验。在 DeepMind,他参与了多个重大项目的研发,包括 Gemini 2.5 模型——该模型在推理能力、多模态理解与长上下文处理方面取得了显著进步。他在机器人操作、物体追踪及语义搜索领域也发表了多篇论文。
Robert Riachi
Robert 是 Google DeepMind 的研究工程师,专注于多模态 AI 模型开发,尤其在图像生成与编辑方面贡献突出。他主修计算机科学与统计学,毕业于加拿大滑铁卢大学。
在 DeepMind,他参与了 Gemini 2.0 及 2.5 系列的研发工作,核心目标是将图像生成能力与对话式 AI 深度整合,使用户能够通过自然语言指令实现精细的图像编辑。在此之前,他曾在 Splunk、Bloomberg、SAP 及 Deloitte 担任软件工程师与机器学习工程师。
Nicole Brichtova
Nicole 本科毕业于乔治敦大学,研究生毕业于杜克大学富卡商学院。目前担任 Google DeepMind 视觉生成产品负责人,专注于构建生成式模型,推动 Gemini 应用、Google Ads 及 Google Cloud 的产品创新。
加入 DeepMind 前,她在 Google 消费产品团队负责产品与市场战略,并曾在德勤咨询担任顾问,为财富 500 强科技公司提供创新与增长策略建议。
她高度关注生成式 AI 如何赋能创意、设计以及人机交互新范式。在多个公开场合,她分享了 DeepMind 在视觉生成领域的最新成果,重点在于模型理解复杂指令并生成高质量图像的能力。
Mostafa Dehghani
Mostafa 是 Google DeepMind 的研究科学家,主要研究方向为深度学习,专注于自监督学习、生成模型、大规模模型训练及序列建模。他博士毕业于阿姆斯特丹大学,研究方向聚焦于在不完备监督条件下改进学习过程——探索将归纳偏置融入算法、嵌入先验知识,以及利用数据本身进行元学习,目标是让算法在噪声或有限数据场景中表现更优。
他于 2020 年加入 DeepMind,参与了多个重要项目,包括多模态视觉语言模型 PaLI-X、220 亿参数的 Vision Transformer(ViT22B),以及 DSI++(Differentiable Search Indices)—— 一种用于文档增量更新的检索增强学习方法。
Nano Banana 演示中的核心技术亮点
具体如何实现“指哪打哪”的精准编辑?来看节目演示的几个核心场景。
图像编辑与场景一致性保持
以第一个演示为例。让 AI 为 Logan“穿上一件巨型香蕉服”,生成过程仅需十几秒。结果不仅完整保留了 Logan 的面部特征,还自动适配了芝加哥街头的背景环境。
创意解读与模糊指令处理能力
更令人印象深刻的是,当提示改为“让它变成纳米(Nano)”时,模型直接生成了 Logan 的“迷你 Q 版”形象,但香蕉服的设定一丝未改。在整个过程中,模型通过自然语言进行多轮交互,并在多次编辑中始终保持场景一致性,无需用户输入冗长的提示词。
过去图像生成 AI 最大的痛点是什么?是“文字渲染像乱码”。而这一次,Gemini 2.5 Flash Image 已经能够在图像中准确生成简短文字,例如“Gemini Nano”这种标识。
团队甚至将文本渲染能力作为评估模型的新指标——因为它能反映模型生成图像“结构”的能力,同时作为衡量整体图像质量的信号,辅助模型优化。通过持续追踪这一指标,团队成功避免了模型性能退化。当然,当前文本渲染仍有改进空间,团队正在进行持续优化。
值得注意的是,Gemini 2.5 Flash Image 远不止是一台“画图工具”。它最核心的突破在于“理解图像内容”。
团队介绍称,该模型实现了原生图像生成与多模态理解的深度融合:图像理解为生成提供上下文,生成又反过来强化理解,两者形成正向循环。通过图像、视频甚至音频,Gemini 能够从世界中获取额外知识,从而提升文本理解与生成能力——视觉信号,在某种程度上成为理解世界的一条高效路径。
在操作体验上,模型引入了“交错生成机制(interleaved generation)”。面对复杂、多点修改任务,模型会自动将一次指令拆解为多轮操作,逐步生成与编辑图像,实现“像素级的精准编辑”。用户仅需使用自然语言下达指令,即便提示较为模糊,Gemini 也能进行创意解读,并保持场景一致性。无论是角色动作、服装还是背景环境,修改与生成都能在多轮中保持连贯。
举例来说,若让模型以 1980 年代美国魅力购物中心的风格生成多张图片,每张图不仅风格统一,且彼此间存在上下文关联。模型会利用多模态上下文,参考前置图像进行生成与修改。
因此,除了娱乐创意场景,Gemini 2.5 Flash Image 在实际应用中也极具价值。例如家居设计:用户可快速对比多种方案——房间更换不同窗帘的效果,模型能精准仅修改窗帘部分,不破坏整体环境。又如人物 OOTD:无论是换装、调整角度,还是生成 80 年代复古风格形象,人物面部与身份一致性都能保持稳定。单张图像生成仅需十几秒,失败后可快速重试,极大提升了创作效率。
那么,在实际开发中,开发者究竟该如何在 Imagen 与 Gemini 之间做选择?
Nicole Brichtova 的回答非常直接:Gemini 的终极目标是整合所有模态,向 AGI(通用人工智能)方向迈进。这意味着 Gemini 不仅是图像生成工具,更是能够利用“知识迁移”、在跨模态复杂任务中发挥作用的系统。相比之下,Imagen 专注于文本到图像的任务,在 Vertex 平台中提供多种变体,针对特定需求进行了优化——例如单张图像的高质量生成、快速输出及成本效益。简单来说,若任务目标明确、追求速度与性价比,Imagen 仍是理想选择。
但一旦涉及复杂的多模态工作流,Gemini 的优势便凸显出来。它适合多模态复杂任务,支持生成+编辑、多轮创意迭代,并能理解模糊指令。Gemini 能够利用世界知识理解模糊提示,尤其适合创意场景。Nicole 还补充道:Gemini 可以直接将参考图像作为风格输入,比 Imagen 更加便捷。这使得处理“以某公司风格设计广告牌”这类任务时,操作更加自然、高效。
最后,团队成员也分享了对未来能力的展望。
一是智能提升。Mostafa Dehghani 希望模型能展现出真正的“智能”——即使不完全遵循指令,也能生成“比我想象中更好”的结果,让使用者感觉自己正在与一个更聪明的系统协作。二是事实性与功能性。Nicole Brichtova 对“事实性”充满期待,希望未来的模型能够生成既美观又功能准确的信息图或图表,甚至自动完成工作简报。在她看来,这不过是这些模型巨大潜力的一小部分。














