DeepSeek Harness量化方法更受信赖?权威榜单

2026-05-29阅读 0热度 0
DeepSeek

DeepSeek那张风格活泼的招聘海报,相信你也刷到了。

蓝色背景,卡通虎鲸,配上“Agent Harness研发工程师”几个大字,乍看像是二次元公司在招实习生。但如果你真这么想,就漏掉了一个关键动向。

现在布局Harness的团队不少,比如Anthropic的Claude Code,还有OpenAI的Codex。

这两个产品有个共同点:负责人都是产品背景出身。前者的舵手是鲍里斯·切尔尼(Boris Cherny),典型的产品经理,曾在Facebook负责工程与产品线。Codex这边是亚历山大·安布利克斯(Alexander Embiricos),Dropbox出身的产品经理。

但DeepSeek走了另一条路。这边Harness的负责人并非产品经理,而是一个在Jane Street干了9年、后来联创量化基金TSY Capital的交易系统架构师——崔添翼。这个选择很反直觉。大多数公司无论做什么产品,找的都是懂用户交互、能画原型图、善协调需求的产品经理。DeepSeek偏偏找了一个实战派量化交易专家。

从这个角度看,DeepSeek反而押对了方向。为什么?因为量化交易和AI Agent的底层逻辑本质相通。光有聪明的策略赚不到钱,真正把策略兑现为收益的,是执行系统和风控体系。光有大模型也不够,真正把模型落地为生产力的,是工具链和上下文管理。DeepSeek不需要花哨的产品包装,也不需要层层汇报,公司内部沟通高效直接。他们唯一要做的,就是跳过所有中间环节,直接找一个能打通变现闭环的人,带着团队一起产出价值。

01 崔添翼其人

2008年,河南安阳一中的崔添翼凭借全国青少年信息学奥林匹克竞赛铜牌,被保送进入浙江大学计算机学院。那一年,梁文锋还在浙大信息与通信工程专业读研究生。崔添翼在浙大的四年,几乎沉浸在ACM竞赛的训练和实战中。他代表浙江大学参加ACM国际大学生程序设计竞赛亚洲区域赛,6次斩获金牌。那个年代,ACM竞赛圈流传着一份讲义《背包九讲》,作者正是崔添翼。这份讲义系统拆解了动态规划中的背包问题,从01背包到完全背包、多重背包、分组背包、依赖背包,一直到泛化物品,至今仍在GitHub上持续更新。

2013年毕业后,崔添翼被Jane Street Capital香港分部聘为助理量化研究员,当时他的年薪已突破百万人民币。Jane Street是全球顶尖的量化交易公司,技术门槛极高,面试流程极其严苛。崔添翼在Jane Street一待就是9年,从事股票和固定收益领域的软件开发与研究。这9年里,他接触的不再是单纯的算法题,而是真实的交易系统、风控系统、回测系统、交易管道和异常处理机制。

很多人以为量化交易的核心是策略,有了策略就能赚钱,但现实并非如此。一个策略在回测中表现再亮眼,如果无法被稳定执行,价值几乎为零。真正把策略变现的是执行系统。策略写出来后,一般不会直接上实盘资金,而是先放到历史行情里跑一遍,看它在过去的涨跌中会如何交易、最终是否盈利——这就是回测。但回测只是事后模拟,跑得漂亮不等于实盘也能赚钱。系统需要先感知价格如何变动,再判断是否出手,接着把买卖指令送出,还要盯住交易所返回的结果:“成交了吗?”“成交价多少?”市场可能突然暴涨暴跌,接口可能延迟,数据可能出错,策略也可能连续亏损。这时系统必须知道何时停手,何时报警,何时切断交易。市场不会等你,延迟哪怕只有几毫秒,钱就没了。这些工作不性感,也不会出现在学术论文里,但它们才是量化交易的核心竞争力。

2022年,崔添翼离开Jane Street,联合创办了量化交易机构TSY Capital,专注于全球股票市场的系统化量化交易策略。从此以后,他从打工者变成了创业者,不仅要懂技术,还得从零搭建整套交易系统、组团队、管风险、对接市场。TSY Capital的团队成员同样来自各大名校,但创业的残酷远比在大公司打工更甚。2026年2月,有消息传出崔添翼离开了TSY Capital。过了一段时间,他在LinkedIn上更新了自己的职位,加入DeepSeek Harness团队。“又一个天才加入DeepSeek”已经不是新闻了,DeepSeek从来不缺天才。DeepSeek找来崔添翼,不是让他来训练模型的,而是让他搭建Harness。

对DeepSeek来说,Harness就是他们的交易系统。AI Agent的底层逻辑和量化交易一模一样:光有强模型不够,真正把模型落地为生产力的,是上下文管理、工具调用、终端执行、测试反馈、权限控制、失败回滚。在量化里,不能被稳定执行的策略价值就是0。在AI里,不能安全操作文件、命令、代码的模型,也只是个聊天框罢了。崔添翼加入DeepSeek Harness团队的真正信号,是DeepSeek终于开始补齐那套把“智能”变成“执行”的系统。这是DeepSeek下半场的开局。

02 从模型效率到工作流入口

DeepSeek上半场的叙事,是模型效率。V3、R1、开源、低成本、推理能力……DeepSeek证明了:中国团队即便没有海量算力,也能做出全球级模型,打破了“只有美国大厂才能做强模型”的固有认知。但对用户来说,永远是谁出了新模型,就跑去用谁的。豆包超过DeepSeek的下载量,就是最直接的例证。模型爆红可以带来巨大的第一波流量,但长期用户规模要靠产品、场景、运营和生态入口留住。字节的优势就在这里:豆包有抖音、剪映、有SeeDance。DeepSeek虽然在模型社区里有声望,但在大众产品层面,并没有形成豆包那种持续分发和高频使用能力。

当下半场模型能力趋同时,真正的竞争会从“谁的模型更聪明”,转向“谁离用户的工作流更近”。虽然我们习惯了ChatBot,但对开发者来说,聊天框并不是入口——编辑器、终端、代码库、CI、文档、任务系统,这些才是真正的入口。Claude Code和Codex这类产品,不只是“帮你写代码”,而是把模型嵌入开发者的日常操作路径。谁占住这个入口,谁就拿到了付费场景。

很多人以为Harness的本质是模型性能,性能越强越好。实际上,Harness是让便宜token变得有用的系统。Agent消耗token是事实。几年前,语言模型处理的任务还很轻:给它一段评论,让它判断情绪,几十个token,几乎瞬间返回。现在的编程Agent面对的是另一类任务:看完整个代码库,找到bug,写补丁,跑测试,再验证结果。一次任务可能消耗上千万token、持续几十分钟甚至几个小时,背后还得调用工具好几百次。现在的GPT和Claude,本质上就是Agent开着豪车送外卖——能跑通,但成本太高。

便宜确实不是终点,但问题是你至少得让我买得起,我才能舍得用吧?而且哪怕是同一个模型,换一套Harness,结果就会完全不同。X上有位叫Sayash Kapoor的博主做了一个测试:以Claude Opus 4.5为例,放进Claude Code的Harness,在CORE-Bench Hard上能达到95%;换成一个朴素的Hugging Face配置,成绩只剩42%。同样的权重、同样的智能水平,单是Harness就拉开了53个百分点,这个差距相当显著。大家拼的已经不是模型了,而是谁的Harness更好。一个更小、更便宜的模型,只要配上设计优秀的Harness,也可能打败一个大模型加粗糙的Harness。这就是2026年所有头部大厂都在追求Harness的原因:模型终究是要用的,多买几张卡、多花时间训练模型,提升非常有限;但写好一个Harness,效果简直是焕然一新。

AI编程已经过了“模型会不会写代码”的阶段,现在哪有不会写代码的模型?真正拉开差距的地方,是模型能不能在真实的代码库里稳定干活。Harness负责组织代码库、项目规则、上下文摘要,控制迭代次数、重试策略,把模型的决策转成shell命令、文件编辑和测试执行,再把测试失败、日志输出、浏览器截图重新喂回模型。AI Agent是一个“思考、行动、反馈、修正”的长循环,这个循环能不能跑稳,靠的就是Harness。

API价格越低,单纯卖token赚的钱越少,这是无可争议的事实。所以需要Harness,把低价的模型包装进高价值场景。同样100万token,用在聊天里只是问答,用在代码Agent里可能完成一个bug修复、一次重构、一个功能原型,后者的付费意愿高得多。DeepSeek需要从卖模型调用,转向卖工作流结果,这是下半场的核心逻辑。

03 DeepSeek的短板

DeepSeek网页端很火,APP下载量也很高,但关于模型调用这块,它是没有收集渠道的。别人用它的模型跑Agent,反馈信息不回梁文锋那里。这不是技术问题,而是机制问题:网页端和APP都是ChatBot,并不能真正去跑工作流。要想做好Harness产品,你得有一个收集反馈的通道:用户在哪里卡住了?哪些工具调用失败率最高?哪些场景下模型表现不稳定?这就像一家量化公司把策略发出去了,但交易日志、成交回报、风控记录都在别人手里。你知道策略有人用,却不知道它到底怎么赚钱、怎么亏钱。收集不到这些信息,产品就是闭门造车。

Harness最值钱的地方,恰恰就在失败日志上面。它改错了哪一行?跑测试时挂在哪个报错?终端命令为什么失败?它有没有重复读同一个文件?有没有在上下文快满时开始忘事?拿到更多真实失败日志,谁就能更快知道Agent到底差在哪里。Claude Code为什么能在短时间内占到GitHub公开提交量的4%?因为Anthropic不只是做了一个工具,而是建立了一个完整的反馈循环:它把用户的每一次失败和重试,都变成产品迭代的数据,尤其是那些集中错误,直接变成了Claude Code的新Harness。DeepSeek现在要补的,不只是Harness本身,还有这套收集反馈、快速迭代的机制。

量化里有个词叫滑点:你以为自己能在这个价格成交,结果真下单的时候,价格已经变了,中间差出来的就是滑点。Agent里也有滑点:模型以为自己理解了项目结构,结果读错文件;以为一条命令能跑通,结果环境变量没配;以为补丁改好了,结果测试挂了。这些差距,就是模型从“想明白”到“做成事”之间的滑点。Harness的价值,就是把这些滑点一点点压低。

还有一点,现在Agent有一个特别让人头疼的问题,就是“管不住”。2026年4月,汽车租赁SaaS公司PocketOS,让一个运行在Cursor里的Claude Opus 4.6编码Agent,通过Railway调用一次API,结果这个Agent在9秒内删除了公司的生产数据库和同卷备份,公司最后只能从三个月前的备份恢复。在量化公司,最怕的不是策略不赚钱,而是策略失控。亏钱可以复盘,失控会把公司拖死。所以交易系统一定要有风控:亏到什么程度要停,出现异常报价要停,接口延迟太高要停。Agent也一样:它能读文件、改代码、跑命令,能力越大,风险越大。什么命令不能执行,哪些目录不能碰,什么时候必须问人,改坏了怎么回滚。崔添翼值钱的地方在于,他知道什么时候该把模型摁住。

以前在产品体验这件事上,DeepSeek是不太需要操心的:模型够强,开源够快,社区自然会来。现在不一样了。开发者对编程工具的容忍度极低,因为他们有些人会同时准备多个编程工具,A工具不行就马上换B工具。Ivern AI在2026年4月开发者调查中提到,73%的开发者经常使用2个以上AI编码工具,只有27%只用一个工具。除了产品体验,工具生态也是一个大问题。Claude Code背后有MCP协议、有插件系统,还有各类Skills,这些东西不是一天建成的,是在无数次真实使用场景里长出来的。稳定性是另一个痛点。DeepSeek爆红之后,服务器压力暴增——比如5月28日,DeepSeek就又崩了。对聊天用户来说,等几秒钟还能接受;但对编程Agent来说,稳定性就是生命线:任务跑到一半,你突然告诉我说API超时了,那所有工作都前功尽弃了。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策