郭达雅补上了字节最后一块短板

2026-05-01阅读 0热度 0

其他

郭达雅离开DeepSeek，引发顶尖科技公司激烈竞逐

这位人工智能领域的顶尖研究者最终将加入哪家公司，始终是行业热议的话题。如今，悬念正式揭晓——根据《晚点LatePost》的独家信息，字节跳动在本次人才争夺战中成功胜出。

回顾这场竞逐，参与方堪称豪华。市场消息显示，阿里巴巴曾提供post-train负责人的职位邀约，腾讯与百度也给出了极具吸引力的薪酬方案。然而，郭达雅的最终决定出乎许多人的预料：他选择了加入字节跳动。

这一选择颇值得深思。字节跳动在多模态生成领域已具备全球领先优势，其Seedance 2.0模型在多项视频生成基准测试中名列前茅。而郭达雅的核心研究方向，与字节的这一优势领域并非完全重叠。

更引人关注的是，即便存在这种差异，字节依然展现出强烈的招揽意愿。这背后，究竟蕴含着怎样的战略考量？

答案，或许隐藏在字节近半年来一系列的组织架构调整与战略声明之中。

01 字节的短板

必须承认，字节在多模态技术上的实力确实出众。吴永辉、周畅、郁博文、蒋路等顶尖研究员的陆续加入，为Seed团队构建了强大而完整的技术研发体系。

然而，在数学推理、代码智能与智能体这三个关键的技术方向上，字节尚未建立起同等程度的领先地位。

首先是数学与科学推理能力。Seed 2.0在AIME、HMMT、IMOAnswerBench等竞赛型题目上表现卓越，多项分数已进入全球第一梯队。

但在科学推理与开放知识任务上，差距开始显现。在GPQA Diamond基准测试中，Seed 2.0的表现落后于GPT-5.2和Gemini 3 Pro；在SuperGPQA上，其分数也低于Gemini 3 Pro与Claude Opus 4.5。

在SimpleQA Verified和FactScore等事实准确性评估中，Seed 2.0与Google、OpenAI、Anthropic等公司的顶级模型相比，仍存在明显差距。

这揭示了一个核心问题：模型的竞赛解题能力已足够强大，但在知识的稳健性、复杂科学问题的长链条逻辑判断，以及关键的元认知能力上，仍有提升空间。

再看AI编程能力。Seed 2.0在Codeforces和LiveCodeBench v6上成绩亮眼，证明其解决算法题和在线编程挑战的能力出色。然而，在更贴近真实工程实践的SWE-Bench Verified上，它落后于Claude Opus 4.5和GPT-5.2。后两者的得分分别为80.9%和80.0%，而Seed 2.0 Pro的第三方实测成绩为76.5%，未能进入榜单前十。

在Terminal Bench 2.0，以及Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot等更接近长期软件工程维护的综合指标上，Seed 2.0的排名也相对靠后。

这些真实环境测试至关重要，尤其对于字节旗下Trae这类AI原生IDE产品。在这些测试中取得高分，意味着产品能在复杂的实际项目中稳定输出、规避错误，并具备代码回滚、结果验证、行为解释等高级工程能力。

最后是智能体能力。字节并非没有Agent能力。Seed 2.0在搜索、工具调用、视觉Agent等任务上均取得了不错的成绩。在BrowseComp、BrowseComp-zh、DeepSearchQA等基准上的突出表现，证明了其信息检索、浏览与整合能力已相当可靠。

然而，当任务切换到MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro这类考验模型长期任务执行、多工具组合、真实终端操作与复杂软件工程能力的基准时，Seed 2.0的表现就显得力不从心。

而这正是智能体技术最难攻克的核心：它要求模型能够持续理解目标、拆解任务、调用工具、编写代码、验证结果，并在失败后调整策略。整个过程环环相扣，容错率极低。

问题的复杂性在于，Agent的缺陷往往不易察觉。如果说多模态的问题是将狗画成了猫，一目了然；那么Agent的问题，则深藏在那些繁琐、枯燥的执行步骤细节之中。

以SWE-Bench Verified为例。该测试将真实的GitHub项目issue交给模型，要求其阅读仓库代码、定位相关文件、修改程序，并最终通过项目原有的测试用例。这里没有任何炫技空间，全是工程实践中的“脏活累活”。

模型若在初始阶段误解了issue需求，后续所有修改都将南辕北辙。即便找对了文件，但遗漏了一个边界条件，测试依然无法通过。如果只修复了当前报错，却引入了新的回归问题，最终也算失败。Agent的难点正在于此：中间任何一步出错，整个任务链便可能崩塌。

那么，数学和代码能力为何如此关键？因为它们构成了智能体能力的“骨架”。数学推理提供了长链条逻辑中的自洽与严谨性，而代码能力则是将抽象想法转化为可执行动作的基石。

因此，郭达雅的加入，补强的正是字节AI技术体系的底层能力。字节已经拥有了强大的“视觉感知”（多模态）、丰富的“产品入口”与“应用场景”、雄厚的算力与工程组织能力。它所欠缺的，正是一个能将代码智能、数学推理、强化学习后训练与智能体执行串联成一条完整技术链路的关键人物。

02 郭达雅最擅长的，不只是写代码

外界常以“代码大模型专家”来定义郭达雅，这个标签准确但不够全面。他的研究内核可以概括为：让模型像理解自然语言一样，深度理解代码的语法结构、数据流、调用关系、上下文语境，以及最终可被执行和验证的结果。

在DeepSeek的两年多时间里，郭达雅深度参与了从Coder、Math等专项模型，到V2、V3、R1的完整研发链条，且均是核心作者。这份履历的含金量，不在于项目数量的多寡，而在于他亲历了一条完整且被验证成功的技术演进路径。

2024年1月，郭达雅作为第一作者推出的DeepSeek-Coder系列，覆盖了1.3B到33B参数规模，在多项基准测试中登顶当时开源代码模型的SOTA。它不仅能够理解复杂代码逻辑，更能高效生成高质量、可运行的代码。

但DeepSeek-Coder的价值远不止于此。它为DeepSeek在代码领域奠定了坚实基础，更重要的是，它验证了一套从数据构建、模型训练到能力评估的完整方法论。

一个月后，郭达雅主导了DeepSeek-Math的研发。该项目以DeepSeek-Coder-Base-v1.5 7B为基础，针对数学能力进行继续训练，额外使用了120B数学相关token。然而，真正的突破在于论文中提出的GRPO算法——该算法让模型对同一问题生成多个答案并相互比较学习，从而大幅降低了训练成本与对标注数据的依赖。

GRPO后来被应用于DeepSeek-R1的训练，成为其推理能力实现飞跃的核心技术之一，并成功将R1的训练成本控制在惊人的29.4万美元。从DeepSeek-Coder到DeepSeek-Math，再到R1，郭达雅构建的是一套可迁移、可复用的技术体系。一种方法在这个模型上奏效，经过优化迭代，便能在下一个模型上产生更好的效果。

代码能力可以迁移到数学推理，数学推理的训练方法又能迁移到通用推理。这种强大的技术迁移与复用能力，正是字节当前所亟需的。

郭达雅加入字节后，将担任Seed Agent方向的负责人之一。这与他自博士期间就开始深耕的研究方向高度契合。他在DeepSeek期间积累的深厚经验，可以直接应用于字节的智能体研发体系。

字节在2026年初启动了针对Agent和Coding的组织整合。这并非简单的团队合并，而是旨在建立一套全新的研发范式。郭达雅的加入，为这套范式提供了坚实的技术基础。他能够将在DeepSeek积累的代码预训练、数学推理、强化学习等技术，系统性地注入字节的Agent研发流程。

郭达雅的技术路线与字节的业务需求高度匹配。字节下一代模型的重点，正是Agent能力的优化与突破。他从博士时期的CodeBERT起步，历经DeepSeek-Coder，再到参与V2、V3、R1的研发，这条技术路线完整覆盖了从代码理解到复杂推理的全链路能力。这正是字节补齐短板的关键所在。

更重要的是，他带来的远不止是技术，更是一套完整的方法论。GRPO方法的核心思想，是让模型学会自主判断答案优劣，而非依赖海量人工标注。在后续的DeepSeek-R1中，无需人工标注的推理轨迹，仅通过纯强化学习便能有效激发大模型的推理能力，并自然涌现出自我反思、验证、动态策略调整等行为模式。

这套方法论对字节的价值在于，它能显著降低对高质量标注数据的依赖，让模型在训练过程中自主发现规律、迭代进化。如前所述，Agent任务执行环环相扣，且处理的多是开放式问题，很难通过人工标注覆盖所有情况。如果能让模型自主学会判断任务完成质量，并动态调整策略，那么Agent的能力上限将得到质的提升。

据了解，郭达雅离开DeepSeek的原因之一，正是他极为看好Agent方向，而当时该方向在DeepSeek内部的优先级并不算高。这最终促使他选择了将Agent置于战略高位的字节，后者愿意投入资源，并给予他充分的施展空间。

03 未来可能出现的产品，不会只是一款更聪明的豆包

郭达雅加入后，最直接的影响将体现在豆包的代码能力上。字节目前已有Trae这款AI原生IDE和豆包Code模型，但其底层能力仍有提升空间。

参考DeepSeek-Coder的性能提升路径，字节很可能推出一个专门针对代码优化的“豆包Coder”模型。这个模型不会仅是参数的简单堆叠，而会在代码的深度理解与生成质量上做文章。郭达雅在CodeBERT和GraphCodeBERT中提出的双模态预训练和数据流结构建模技术，可以直接应用于此模型的训练中。

另一方面，火山方舟推出的Coding Plan订阅套餐，支持豆包、DeepSeek和Kimi等多个模型，采用Anthropic原生协议，配置简便。但目前来看，火山方舟更多侧重于模型接入与工程优化，走的是多模型聚合+工程化优化的路径，尚未形成独特的技术壁垒。

火山套餐中的“Auto模式”颇具亮点：用户发起编程任务后，平台会根据任务类型、响应速度、模型效果、成本等因素，自动路由至更合适的模型。这个能力本身很有用，但仍偏工程优化。它知道哪个模型适合当前任务，却未必能将这种判断能力沉淀为模型自身的智能。

而郭达雅的加入，可能改变这一局面。Auto模式产生的大量真实开发任务与反馈数据，可以反过来成为训练“Doubao-Seed-Code”的宝贵燃料。例如，某类前端重构任务DeepSeek更稳定，某类测试修复Kimi表现更好，某类终端任务豆包的失败率较高。

如果平台能系统记录任务类型、模型选择、补丁是否通过测试、用户是否采纳、失败原因等数据，就能形成一个极其稀缺的代码Agent数据闭环。郭达雅所擅长的可验证任务与强化学习，正好可以将这些实时反馈转化为高效的后训练系统。

如此一来，火山方舟的竞争壁垒将发生根本性转变。它将外部模型接入，在真实开发场景中持续观察、比较、并以此训练自己的模型。别人的多模型聚合，可能停留在流量分发层；而字节的多模型聚合，则有机会培育出一个能够自我进化、越用越强的代码模型。

此外，火山方舟目前的Coding Plan主要面向个人开发者，提供轻量级AI编程服务。郭达雅完全有能力带领团队，开发出一个面向企业的“Coding Plan企业版”。

企业与个人对AI编程的需求差异巨大。企业更需要的是旧系统维护、代码迁移、测试补齐、安全修复和内部工具开发。火山方舟可以推出一个类似“代码库医生”的Agent产品。该Agent接入企业代码仓库后，能自动扫描依赖、识别代码“坏味道”、补充单元测试、修复安全漏洞、进行版本升级，并最终生成可供审查的Pull Request。

针对大型代码库的长期理解、测试反馈的迭代利用、企业权限与数据安全的合规处理，正是郭达雅的技术强项所在。他完全有能力打造出一款能够长期维护复杂项目的工程化Agent。

同时，字节在视频生成上的领先优势，也能与代码能力产生奇妙的化学反应。一个可能的方向是视频内容的程序化生成，类似于“世界模型”的概念。用户描述想要的视频效果，AI生成一段可以精确控制Seedance引擎的代码。这段代码能定义镜头运动、场景切换、音画同步等各项参数。这种程序化方式，使得视频生成更加可控，也更容易迭代和优化。

数学推理能力的提升，则会让豆包在需要精确计算与逻辑推演的场景中表现更为出色。字节甚至可以推出一个专门针对科研与工程场景的“豆包专业版”，类似于OpenAI的Prism，支持复杂的数学建模、数据分析、算法设计等任务。这个版本可以集成形式化证明能力，确保推理过程的绝对严谨，这对于金融、医疗、工业等对可靠性要求极高的行业至关重要。

总而言之，郭达雅的加入，绝非一次简单的人才引进。它清晰地预示着字节AI战略的调整与深化。在多模态领域已取得全球领先地位之后，字节正决心在代码智能与Agent这两个关键赛道上，建立起同样不可撼动的优势。这场人才争夺战的落幕，或许正是下一个技术浪潮开启的序章。

郭达雅补上了字节最后一块短板

郭达雅离开DeepSeek，引发顶尖科技公司激烈竞逐

01 字节的短板

02 郭达雅最擅长的，不只是写代码

03 未来可能出现的产品，不会只是一款更聪明的豆包

相关阅读

最新教程

最新资讯