DeepSeek Harness量化方法更受信赖？权威榜单

2026-05-29阅读 0热度 0

DeepSeek

DeepSeek那张风格活泼的招聘海报，相信你也刷到了。

蓝色背景，卡通虎鲸，配上“Agent Harness研发工程师”几个大字，乍看像是二次元公司在招实习生。但如果你真这么想，就漏掉了一个关键动向。

现在布局Harness的团队不少，比如Anthropic的Claude Code，还有OpenAI的Codex。

这两个产品有个共同点：负责人都是产品背景出身。前者的舵手是鲍里斯·切尔尼（Boris Cherny），典型的产品经理，曾在Facebook负责工程与产品线。Codex这边是亚历山大·安布利克斯（Alexander Embiricos），Dropbox出身的产品经理。

但DeepSeek走了另一条路。这边Harness的负责人并非产品经理，而是一个在Jane Street干了9年、后来联创量化基金TSY Capital的交易系统架构师——崔添翼。这个选择很反直觉。大多数公司无论做什么产品，找的都是懂用户交互、能画原型图、善协调需求的产品经理。DeepSeek偏偏找了一个实战派量化交易专家。

从这个角度看，DeepSeek反而押对了方向。为什么？因为量化交易和AI Agent的底层逻辑本质相通。光有聪明的策略赚不到钱，真正把策略兑现为收益的，是执行系统和风控体系。光有大模型也不够，真正把模型落地为生产力的，是工具链和上下文管理。DeepSeek不需要花哨的产品包装，也不需要层层汇报，公司内部沟通高效直接。他们唯一要做的，就是跳过所有中间环节，直接找一个能打通变现闭环的人，带着团队一起产出价值。

01 崔添翼其人

2008年，河南安阳一中的崔添翼凭借全国青少年信息学奥林匹克竞赛铜牌，被保送进入浙江大学计算机学院。那一年，梁文锋还在浙大信息与通信工程专业读研究生。崔添翼在浙大的四年，几乎沉浸在ACM竞赛的训练和实战中。他代表浙江大学参加ACM国际大学生程序设计竞赛亚洲区域赛，6次斩获金牌。那个年代，ACM竞赛圈流传着一份讲义《背包九讲》，作者正是崔添翼。这份讲义系统拆解了动态规划中的背包问题，从01背包到完全背包、多重背包、分组背包、依赖背包，一直到泛化物品，至今仍在GitHub上持续更新。

2013年毕业后，崔添翼被Jane Street Capital香港分部聘为助理量化研究员，当时他的年薪已突破百万人民币。Jane Street是全球顶尖的量化交易公司，技术门槛极高，面试流程极其严苛。崔添翼在Jane Street一待就是9年，从事股票和固定收益领域的软件开发与研究。这9年里，他接触的不再是单纯的算法题，而是真实的交易系统、风控系统、回测系统、交易管道和异常处理机制。

很多人以为量化交易的核心是策略，有了策略就能赚钱，但现实并非如此。一个策略在回测中表现再亮眼，如果无法被稳定执行，价值几乎为零。真正把策略变现的是执行系统。策略写出来后，一般不会直接上实盘资金，而是先放到历史行情里跑一遍，看它在过去的涨跌中会如何交易、最终是否盈利——这就是回测。但回测只是事后模拟，跑得漂亮不等于实盘也能赚钱。系统需要先感知价格如何变动，再判断是否出手，接着把买卖指令送出，还要盯住交易所返回的结果：“成交了吗？”“成交价多少？”市场可能突然暴涨暴跌，接口可能延迟，数据可能出错，策略也可能连续亏损。这时系统必须知道何时停手，何时报警，何时切断交易。市场不会等你，延迟哪怕只有几毫秒，钱就没了。这些工作不性感，也不会出现在学术论文里，但它们才是量化交易的核心竞争力。

2022年，崔添翼离开Jane Street，联合创办了量化交易机构TSY Capital，专注于全球股票市场的系统化量化交易策略。从此以后，他从打工者变成了创业者，不仅要懂技术，还得从零搭建整套交易系统、组团队、管风险、对接市场。TSY Capital的团队成员同样来自各大名校，但创业的残酷远比在大公司打工更甚。2026年2月，有消息传出崔添翼离开了TSY Capital。过了一段时间，他在LinkedIn上更新了自己的职位，加入DeepSeek Harness团队。“又一个天才加入DeepSeek”已经不是新闻了，DeepSeek从来不缺天才。DeepSeek找来崔添翼，不是让他来训练模型的，而是让他搭建Harness。

对DeepSeek来说，Harness就是他们的交易系统。AI Agent的底层逻辑和量化交易一模一样：光有强模型不够，真正把模型落地为生产力的，是上下文管理、工具调用、终端执行、测试反馈、权限控制、失败回滚。在量化里，不能被稳定执行的策略价值就是0。在AI里，不能安全操作文件、命令、代码的模型，也只是个聊天框罢了。崔添翼加入DeepSeek Harness团队的真正信号，是DeepSeek终于开始补齐那套把“智能”变成“执行”的系统。这是DeepSeek下半场的开局。

02 从模型效率到工作流入口

DeepSeek上半场的叙事，是模型效率。V3、R1、开源、低成本、推理能力……DeepSeek证明了：中国团队即便没有海量算力，也能做出全球级模型，打破了“只有美国大厂才能做强模型”的固有认知。但对用户来说，永远是谁出了新模型，就跑去用谁的。豆包超过DeepSeek的下载量，就是最直接的例证。模型爆红可以带来巨大的第一波流量，但长期用户规模要靠产品、场景、运营和生态入口留住。字节的优势就在这里：豆包有抖音、剪映、有SeeDance。DeepSeek虽然在模型社区里有声望，但在大众产品层面，并没有形成豆包那种持续分发和高频使用能力。

当下半场模型能力趋同时，真正的竞争会从“谁的模型更聪明”，转向“谁离用户的工作流更近”。虽然我们习惯了ChatBot，但对开发者来说，聊天框并不是入口——编辑器、终端、代码库、CI、文档、任务系统，这些才是真正的入口。Claude Code和Codex这类产品，不只是“帮你写代码”，而是把模型嵌入开发者的日常操作路径。谁占住这个入口，谁就拿到了付费场景。

很多人以为Harness的本质是模型性能，性能越强越好。实际上，Harness是让便宜token变得有用的系统。Agent消耗token是事实。几年前，语言模型处理的任务还很轻：给它一段评论，让它判断情绪，几十个token，几乎瞬间返回。现在的编程Agent面对的是另一类任务：看完整个代码库，找到bug，写补丁，跑测试，再验证结果。一次任务可能消耗上千万token、持续几十分钟甚至几个小时，背后还得调用工具好几百次。现在的GPT和Claude，本质上就是Agent开着豪车送外卖——能跑通，但成本太高。

便宜确实不是终点，但问题是你至少得让我买得起，我才能舍得用吧？而且哪怕是同一个模型，换一套Harness，结果就会完全不同。X上有位叫Sayash Kapoor的博主做了一个测试：以Claude Opus 4.5为例，放进Claude Code的Harness，在CORE-Bench Hard上能达到95%；换成一个朴素的Hugging Face配置，成绩只剩42%。同样的权重、同样的智能水平，单是Harness就拉开了53个百分点，这个差距相当显著。大家拼的已经不是模型了，而是谁的Harness更好。一个更小、更便宜的模型，只要配上设计优秀的Harness，也可能打败一个大模型加粗糙的Harness。这就是2026年所有头部大厂都在追求Harness的原因：模型终究是要用的，多买几张卡、多花时间训练模型，提升非常有限；但写好一个Harness，效果简直是焕然一新。

AI编程已经过了“模型会不会写代码”的阶段，现在哪有不会写代码的模型？真正拉开差距的地方，是模型能不能在真实的代码库里稳定干活。Harness负责组织代码库、项目规则、上下文摘要，控制迭代次数、重试策略，把模型的决策转成shell命令、文件编辑和测试执行，再把测试失败、日志输出、浏览器截图重新喂回模型。AI Agent是一个“思考、行动、反馈、修正”的长循环，这个循环能不能跑稳，靠的就是Harness。

API价格越低，单纯卖token赚的钱越少，这是无可争议的事实。所以需要Harness，把低价的模型包装进高价值场景。同样100万token，用在聊天里只是问答，用在代码Agent里可能完成一个bug修复、一次重构、一个功能原型，后者的付费意愿高得多。DeepSeek需要从卖模型调用，转向卖工作流结果，这是下半场的核心逻辑。

03 DeepSeek的短板

DeepSeek网页端很火，APP下载量也很高，但关于模型调用这块，它是没有收集渠道的。别人用它的模型跑Agent，反馈信息不回梁文锋那里。这不是技术问题，而是机制问题：网页端和APP都是ChatBot，并不能真正去跑工作流。要想做好Harness产品，你得有一个收集反馈的通道：用户在哪里卡住了？哪些工具调用失败率最高？哪些场景下模型表现不稳定？这就像一家量化公司把策略发出去了，但交易日志、成交回报、风控记录都在别人手里。你知道策略有人用，却不知道它到底怎么赚钱、怎么亏钱。收集不到这些信息，产品就是闭门造车。

Harness最值钱的地方，恰恰就在失败日志上面。它改错了哪一行？跑测试时挂在哪个报错？终端命令为什么失败？它有没有重复读同一个文件？有没有在上下文快满时开始忘事？拿到更多真实失败日志，谁就能更快知道Agent到底差在哪里。Claude Code为什么能在短时间内占到GitHub公开提交量的4%？因为Anthropic不只是做了一个工具，而是建立了一个完整的反馈循环：它把用户的每一次失败和重试，都变成产品迭代的数据，尤其是那些集中错误，直接变成了Claude Code的新Harness。DeepSeek现在要补的，不只是Harness本身，还有这套收集反馈、快速迭代的机制。

量化里有个词叫滑点：你以为自己能在这个价格成交，结果真下单的时候，价格已经变了，中间差出来的就是滑点。Agent里也有滑点：模型以为自己理解了项目结构，结果读错文件；以为一条命令能跑通，结果环境变量没配；以为补丁改好了，结果测试挂了。这些差距，就是模型从“想明白”到“做成事”之间的滑点。Harness的价值，就是把这些滑点一点点压低。

还有一点，现在Agent有一个特别让人头疼的问题，就是“管不住”。2026年4月，汽车租赁SaaS公司PocketOS，让一个运行在Cursor里的Claude Opus 4.6编码Agent，通过Railway调用一次API，结果这个Agent在9秒内删除了公司的生产数据库和同卷备份，公司最后只能从三个月前的备份恢复。在量化公司，最怕的不是策略不赚钱，而是策略失控。亏钱可以复盘，失控会把公司拖死。所以交易系统一定要有风控：亏到什么程度要停，出现异常报价要停，接口延迟太高要停。Agent也一样：它能读文件、改代码、跑命令，能力越大，风险越大。什么命令不能执行，哪些目录不能碰，什么时候必须问人，改坏了怎么回滚。崔添翼值钱的地方在于，他知道什么时候该把模型摁住。

以前在产品体验这件事上，DeepSeek是不太需要操心的：模型够强，开源够快，社区自然会来。现在不一样了。开发者对编程工具的容忍度极低，因为他们有些人会同时准备多个编程工具，A工具不行就马上换B工具。Ivern AI在2026年4月开发者调查中提到，73%的开发者经常使用2个以上AI编码工具，只有27%只用一个工具。除了产品体验，工具生态也是一个大问题。Claude Code背后有MCP协议、有插件系统，还有各类Skills，这些东西不是一天建成的，是在无数次真实使用场景里长出来的。稳定性是另一个痛点。DeepSeek爆红之后，服务器压力暴增——比如5月28日，DeepSeek就又崩了。对聊天用户来说，等几秒钟还能接受；但对编程Agent来说，稳定性就是生命线：任务跑到一半，你突然告诉我说API超时了，那所有工作都前功尽弃了。

DeepSeek Harness量化方法更受信赖？权威榜单

01 崔添翼其人

02 从模型效率到工作流入口

03 DeepSeek的短板

相关阅读

最新教程

最新资讯