谷歌Nano Banana刷屏揭秘：团队背景全解析

2026-06-22阅读 0热度 0

香蕉造型也能秒变时尚礼服？Google 最新推出的生成式 AI 做到了。

在最新一期谷歌开发者节目中，Google DeepMind 团队首次完整展示了 Gemini 2.5 Flash Image —— 这款模型原生集成了图像生成与编辑能力。它不仅能在极短时间内输出高画质图像，还能在多轮对话中稳定保持场景与风格的一致性，是一次真正意义上的交互式图像生成突破。

值得关注的是，负责这一模型研发与产品化的核心团队也首次公开亮相。

核心团队成员深度解析

下面逐一介绍几位关键人物。

Logan Kilpatrick

作为 Google DeepMind 高级产品经理，Logan 全面负责 Google AI Studio 与 Gemini API 的产品策略与交付。在 AI 开发者社区，他几乎是标杆级人物——此前在 OpenAI 主导开发者关系，被圈内称为“LoganGPT”。更早前，他在 Apple 担任机器学习工程师，甚至在 NASA 担任过开源政策顾问。

在 Google，他主导了 Gemini 2.0 Flash 本地图像生成功能的发布，使开发者能够通过自然语言提示进行图像生成与编辑。多轮对话式编辑、图文交替生成、基于世界知识的图像生成，是这套系统的核心亮点。他几乎已成为 Google AI 的“非正式代言人”，持续在 X 平台输出产品更新与开发者资源。

Logan 毕业于哈佛与牛津，早期在 NASA 参与月球车软件开发，后在 Apple 训练机器学习模型。值得注意的是，他对 Julia 编程语言持积极态度，2024 年曾表示，直接追求人工超智能（ASI）而跳过中间阶段的做法“正变得越来越可行”。

Kaushik Shivakumar

Kaushik 是 Google DeepMind 的研究工程师，深耕机器人技术、人工智能与多模态学习领域。他在 UC Berkeley 获得计算机科学学士学位，后在 AUTOLab 实验室师从 Ken Goldberg 教授攻读硕士。研究生期间，他主要研究可变形物体操作、语言模型与强化学习在机器人上的应用。

加入 DeepMind 前，他在 Google Brain 担任软件工程实习生，研究深度神经网络的不确定性估计方法。此外，他在 UC Berkeley 的 RISE Lab 及 Snorkel AI 等机构也有丰富研究经验。在 DeepMind，他参与了多个重大项目的研发，包括 Gemini 2.5 模型——该模型在推理能力、多模态理解与长上下文处理方面取得了显著进步。他在机器人操作、物体追踪及语义搜索领域也发表了多篇论文。

Robert Riachi

Robert 是 Google DeepMind 的研究工程师，专注于多模态 AI 模型开发，尤其在图像生成与编辑方面贡献突出。他主修计算机科学与统计学，毕业于加拿大滑铁卢大学。

在 DeepMind，他参与了 Gemini 2.0 及 2.5 系列的研发工作，核心目标是将图像生成能力与对话式 AI 深度整合，使用户能够通过自然语言指令实现精细的图像编辑。在此之前，他曾在 Splunk、Bloomberg、SAP 及 Deloitte 担任软件工程师与机器学习工程师。

Nicole Brichtova

Nicole 本科毕业于乔治敦大学，研究生毕业于杜克大学富卡商学院。目前担任 Google DeepMind 视觉生成产品负责人，专注于构建生成式模型，推动 Gemini 应用、Google Ads 及 Google Cloud 的产品创新。

加入 DeepMind 前，她在 Google 消费产品团队负责产品与市场战略，并曾在德勤咨询担任顾问，为财富 500 强科技公司提供创新与增长策略建议。

她高度关注生成式 AI 如何赋能创意、设计以及人机交互新范式。在多个公开场合，她分享了 DeepMind 在视觉生成领域的最新成果，重点在于模型理解复杂指令并生成高质量图像的能力。

Mostafa Dehghani

Mostafa 是 Google DeepMind 的研究科学家，主要研究方向为深度学习，专注于自监督学习、生成模型、大规模模型训练及序列建模。他博士毕业于阿姆斯特丹大学，研究方向聚焦于在不完备监督条件下改进学习过程——探索将归纳偏置融入算法、嵌入先验知识，以及利用数据本身进行元学习，目标是让算法在噪声或有限数据场景中表现更优。

他于 2020 年加入 DeepMind，参与了多个重要项目，包括多模态视觉语言模型 PaLI-X、220 亿参数的 Vision Transformer（ViT22B），以及 DSI++（Differentiable Search Indices）—— 一种用于文档增量更新的检索增强学习方法。

Nano Banana 演示中的核心技术亮点

具体如何实现“指哪打哪”的精准编辑？来看节目演示的几个核心场景。

图像编辑与场景一致性保持

以第一个演示为例。让 AI 为 Logan“穿上一件巨型香蕉服”，生成过程仅需十几秒。结果不仅完整保留了 Logan 的面部特征，还自动适配了芝加哥街头的背景环境。

创意解读与模糊指令处理能力

更令人印象深刻的是，当提示改为“让它变成纳米（Nano）”时，模型直接生成了 Logan 的“迷你 Q 版”形象，但香蕉服的设定一丝未改。在整个过程中，模型通过自然语言进行多轮交互，并在多次编辑中始终保持场景一致性，无需用户输入冗长的提示词。

过去图像生成 AI 最大的痛点是什么？是“文字渲染像乱码”。而这一次，Gemini 2.5 Flash Image 已经能够在图像中准确生成简短文字，例如“Gemini Nano”这种标识。

团队甚至将文本渲染能力作为评估模型的新指标——因为它能反映模型生成图像“结构”的能力，同时作为衡量整体图像质量的信号，辅助模型优化。通过持续追踪这一指标，团队成功避免了模型性能退化。当然，当前文本渲染仍有改进空间，团队正在进行持续优化。

值得注意的是，Gemini 2.5 Flash Image 远不止是一台“画图工具”。它最核心的突破在于“理解图像内容”。

团队介绍称，该模型实现了原生图像生成与多模态理解的深度融合：图像理解为生成提供上下文，生成又反过来强化理解，两者形成正向循环。通过图像、视频甚至音频，Gemini 能够从世界中获取额外知识，从而提升文本理解与生成能力——视觉信号，在某种程度上成为理解世界的一条高效路径。

在操作体验上，模型引入了“交错生成机制（interleaved generation）”。面对复杂、多点修改任务，模型会自动将一次指令拆解为多轮操作，逐步生成与编辑图像，实现“像素级的精准编辑”。用户仅需使用自然语言下达指令，即便提示较为模糊，Gemini 也能进行创意解读，并保持场景一致性。无论是角色动作、服装还是背景环境，修改与生成都能在多轮中保持连贯。

举例来说，若让模型以 1980 年代美国魅力购物中心的风格生成多张图片，每张图不仅风格统一，且彼此间存在上下文关联。模型会利用多模态上下文，参考前置图像进行生成与修改。

因此，除了娱乐创意场景，Gemini 2.5 Flash Image 在实际应用中也极具价值。例如家居设计：用户可快速对比多种方案——房间更换不同窗帘的效果，模型能精准仅修改窗帘部分，不破坏整体环境。又如人物 OOTD：无论是换装、调整角度，还是生成 80 年代复古风格形象，人物面部与身份一致性都能保持稳定。单张图像生成仅需十几秒，失败后可快速重试，极大提升了创作效率。

那么，在实际开发中，开发者究竟该如何在 Imagen 与 Gemini 之间做选择？

Nicole Brichtova 的回答非常直接：Gemini 的终极目标是整合所有模态，向 AGI（通用人工智能）方向迈进。这意味着 Gemini 不仅是图像生成工具，更是能够利用“知识迁移”、在跨模态复杂任务中发挥作用的系统。相比之下，Imagen 专注于文本到图像的任务，在 Vertex 平台中提供多种变体，针对特定需求进行了优化——例如单张图像的高质量生成、快速输出及成本效益。简单来说，若任务目标明确、追求速度与性价比，Imagen 仍是理想选择。

但一旦涉及复杂的多模态工作流，Gemini 的优势便凸显出来。它适合多模态复杂任务，支持生成+编辑、多轮创意迭代，并能理解模糊指令。Gemini 能够利用世界知识理解模糊提示，尤其适合创意场景。Nicole 还补充道：Gemini 可以直接将参考图像作为风格输入，比 Imagen 更加便捷。这使得处理“以某公司风格设计广告牌”这类任务时，操作更加自然、高效。

最后，团队成员也分享了对未来能力的展望。

一是智能提升。Mostafa Dehghani 希望模型能展现出真正的“智能”——即使不完全遵循指令，也能生成“比我想象中更好”的结果，让使用者感觉自己正在与一个更聪明的系统协作。二是事实性与功能性。Nicole Brichtova 对“事实性”充满期待，希望未来的模型能够生成既美观又功能准确的信息图或图表，甚至自动完成工作简报。在她看来，这不过是这些模型巨大潜力的一小部分。

谷歌Nano Banana刷屏揭秘：团队背景全解析

核心团队成员深度解析

Nano Banana 演示中的核心技术亮点

相关阅读

最新教程

最新资讯