OpenAI挖走Transformer作者,AI行业格局或将重塑
AI行业又一次迎来了重量级的人才流动。
就在刚刚,Transformer论文的作者之一、知名AI研究员Noam Shazeer在社交媒体上宣布,他将正式加入OpenAI。
他的原话是这么说的:
「很兴奋能分享这个消息,我将加入OpenAI,非常期待和那里的出色团队合作。做出离开的决定并不容易,我对Google的团队以及我们共同创造的一切感到无比自豪。能与你们所有人共事,是一种荣幸和乐趣。」
对普通用户来说,Noam Shazeer这个名字可能并不常见。但在今天的大模型行业里,他几乎站在所有关键故事的交汇点上。
ChatGPT里的那个“T”,代表的就是Transformer。而Shazeer正是2017年那篇划时代论文《Attention Is All You Need》的八位作者之一。OpenAI这次从Google挖走的,不仅是Gemini的一位负责人,更是一位亲手搭建了现代大模型底层技术的人。
从Google早期员工,到Transformer作者
Shazeer并不是近几年才冒出来的AI明星。他早在2000年就加入了Google,是名副其实的早期员工。最初,他做的是搜索和广告系统相关的工作,包括拼写纠错、广告文本排序、垃圾邮件检测、新闻排序等等。换句话说,在Google的前十多年,他几乎把这家公司的核心业务都摸了一遍。
真正的转折点发生在Google Brain。2012年前后,Google Brain成为Google内部探索深度学习的核心团队。Shazeer也从应用工程转向了基础研究,并由此进入了后来重塑整个AI行业的技术脉络。
2017年,《Attention Is All You Need》发表。这篇论文提出了Transformer架构,用注意力机制取代了过去机器翻译中常见的循环网络和卷积网络。它带来的核心变化是:让模型训练更容易并行化,规模可以继续扩大,并且能力开始随规模增长而显著跃迁。
此后,GPT、BERT、Claude、Gemini等大模型,都与这条技术路线密切相关。在这篇论文中,Shazeer的贡献非常突出——他参与了注意力机制、多头注意力等关键设计,还亲手写过早期的实现代码。后来他还提出了Mixture of Experts、Multi Query Attention、Adafactor等技术方向,这些都直接影响了今天大模型的训练和推理效率。
从某种意义上说,OpenAI今天能成为OpenAI,Google当年那批研究者的工作是绕不开的源头。
他曾离开Google,只因为Google没有发布那个聊天机器人
Shazeer与Google的关系,也经历过几番波折。
2018年,Google Brain的研究工程师Daniel De Freitas开始做一个对话AI项目,Shazeer很快就成了核心合作者。到2020年,他们做出了Meena——一个拥有26亿参数的神经对话模型。
Meena可以闲聊、开玩笑、讨论电视节目,也能进行更复杂的对话。Google当时公开介绍过它,并宣称其在“合理性和特异性平均”指标上领先同类聊天机器人。
但Google没有把Meena推向公众。
原因并不难猜:聊天机器人会生成不可控的内容,可能带来品牌风险、安全风险和舆论风险。而Google在搜索、广告、移动系统等领域都有庞大的既有业务,任何一个AI产品的失误都会被无限放大。
Shazeer显然对这种谨慎态度非常不满意。
根据后来的报道,他曾认为Meena有机会替代Google搜索,创造巨大的商业价值。2021年,他和Daniel De Freitas一起离开了Google,创立了Character.AI。
后面的故事,几乎成了大模型时代最典型的AI创业样本。
Character.AI的产品很简单,但非常敏锐。用户可以和AI角色聊天,角色可以是历史人物、虚构人物、名人,也可以是用户自己创建的陪伴型角色。它没有把AI包装成一个效率工具,而是做成了一个可以长期互动的对象。这让Character.AI很快就在消费级AI产品中获得了大量用户。
2023年3月,Character.AI完成了1.5亿美元的A轮融资,a16z领投,估值达到10亿美元。移动应用上线后,首周下载量超过170万次。平台用户的停留时长也相当惊人——很多人不是问完一个问题就走,而是把它当成聊天、陪伴、角色扮演和情绪出口。
问题也随之而来。用户越多,推理成本就越高。大模型产品的商业化并不只看流量,还得看每一次对话背后的算力账单。Character.AI虽然有高活跃用户,但收入与成本之间的压力长期存在。更麻烦的是,角色聊天产品天然会触及内容安全、未成年人保护、情绪依赖等问题。对于一家创业公司来说,既要训练模型、付算力账单,又要做产品增长和安全治理,压力会越来越大。
到了2024年,Character.AI开始寻找新的出路。
Google花了27亿美元,把他请了回来
2024年8月,Google与Character.AI达成协议。表面上,Google并没有收购Character.AI,双方签署的是非独家技术授权协议,Google可以使用Character.AI的大语言模型技术。Character.AI继续独立运营,Dominic Perella出任临时CEO,产品团队继续留下。
但外界真正关注的,是人员的流动。
Shazeer、Daniel De Freitas以及部分研究人员回到了Google,加入了Google DeepMind。随后,Shazeer被任命为Gemini的联合技术负责人,和Jeff Dean、Oriol Vinyals一起负责Google最重要的大模型项目。
多家媒体报道称,Google为这笔交易支付了大约27亿美元。这笔钱并不仅仅是买一份授权,更准确地说,Google是用极高的成本,把这位曾经离开的关键人物Shazeer带回了Gemini。
如今,不到两年,故事再次转向。Shazeer离开Gemini加入OpenAI,让这场AI竞赛进入了更微妙的阶段。毕竟,尽管大模型的技术路线仍在高速变化,但一个趋势已经很清楚了:顶级研究者的稀缺性在急剧上升。
训练更大的模型,已经不只是在堆GPU。推理能力、长上下文、低成本推理、模型可靠性、多模态原生能力、Agent架构——每一个方向都需要少数真正理解模型结构和训练规律的人。
Shazeer的履历恰好覆盖了这些关键节点。他懂Transformer的底层逻辑——大模型行业里很多人是在使用Transformer、改造Transformer、优化Transformer,而Shazeer是最早把它做出来的人之一。他有规模化模型的经验——从Google Brain到LaMDA、Meena、Character.AI,再到Gemini,他经历过研究、产品、创业、基础模型工程和消费级应用的全过程。他还亲眼见过大公司与创业公司的两种极限——Google的谨慎,Character.AI的增长与成本压力,Gemini的追赶任务,这些都让他比单纯的研究者更了解大模型走向产品时会遇到什么。
OpenAI得到他,相当于得到一位从大模型史前时代一路走到今天的工程型研究者。而Transformer诞生近十年后,当年那批作者留下的影响,还在持续搅动着整个AI行业的格局。







