2024精选AI工具测评:告别“锯齿状智能”的实用指南

2026-05-17阅读 0热度 0
ai


当前最前沿的大语言模型,已能独立重构一个包含十万行代码的复杂项目。然而,当你询问它如何洗车时,同一个模型却可能给出一个令人费解的建议:步行前往50米外的洗车店。

为何其能力表现如此矛盾?时而展现出超越资深工程师的架构能力,时而又暴露出缺乏基本生活常识的短板?

在近期的Sequoia AI Ascent 2026炉边谈话中,前特斯拉AI负责人、OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)用一个生动的比喻引出了核心概念——锯齿状智能(Jagged Intelligence)。会后,他亦在社交平台X上提炼了此次对话的关键洞察。


2026年4月29日,Karpathy在Sequoia AI Ascent 2026炉边谈话现场

他的核心论述围绕三点展开:首先,大模型带来的不仅是效率提升,它正开辟数条全新的技术地平线,使某些任务首次成为可能,同时让另一些传统流程变得过时。其次,正是这种“锯齿状”的能力图谱,导致了模型输出的巨大波动性。最后,一个面向原生智能体(agent-native)的新经济范式正在成型,今天所有为人类设计的软件、文档与工作流,未来都可能需要为智能体重新架构。

这三者共同指向一个更深刻的判断:AI的影响已远超“加速编码”的范畴。它正在重塑软件的本质,并重新定义人类在技术生态中的角色。

即便是“氛围编程”(Vibe Coding)一词的提出者卡帕西,近期也公开坦言:“我从未感觉作为程序员如此落后。”主持人以此作为开场,而这并非谦辞。一位身处浪潮之巅的专家亲口承认追赶的吃力,恰恰印证了AI迭代速度的颠覆性。

能重构十万行代码,却建议你走路去洗车

“这很能说明问题。”卡帕西在现场分享了那个经典的“洗车”案例。重构十万行代码,意味着处理极其复杂的软件工程依赖;而“走路去洗车店”,则暴露了一个连孩童都能理解的逻辑断层——需要清洗的是汽车,而汽车本身无法步行。

这一鲜明对比,精准诠释了“锯齿状智能”的内涵。AI的能力演进并非一条平滑上升的曲线,而是一块凹凸不平、峰谷悬殊的锯齿板。在某些经过海量数据训练和强化的任务上,其表现堪称卓越;而在另一些涉及朴素常识或多步骤现实推理的场景中,它却可能意外失效。

因此,当前最危险的认知误区,便是用二元对立的“行”或“不行”来简单评估AI。现实远比这复杂。

新地平线:当软件实现“端到端”达成

卡帕西分享了一个令他深有感触的个人项目。他曾开发过一个名为MenuGen的应用,其流程是:拍摄餐厅菜单,通过OCR识别文字,再调用图像生成模型为每道菜配图。这是一个典型的“软件1.0”思维产物。

直到他看到一个“软件3.0”范式的实现:用户只需将菜单照片发送给Gemini这类多模态大模型,并附上提示词“用Nanobanana把菜品图片贴到菜单上”,模型便能直接输出一张图文并茂的新菜单。


他意识到,自己那个需要集成多个API、处理各种异常流程的App,在新范式面前显得冗余。这揭示了第一条新地平线:AI不再仅是优化旧工具,而是能将原本需要一整套工程化流程才能完成的任务,压缩为模型的一次性端到端输出。

第二条地平线,是“.md”文件取代“.sh”脚本。过去,安装复杂软件常需运行冗长且脆弱的bash脚本,环境差异极易导致失败。卡帕西提到了OpenClaw的安装方式:它提供的不是脚本,而是一段Markdown文档,指示“将此段文本复制给你的智能体”。智能体会自动检查系统环境、调试并完成安装。此时,Markdown不再是供人阅读的说明,而是给智能体执行的操作指令。

第三条地平线,是他在2026年4月提出的“LLM Wiki”概念。传统的检索增强生成(RAG)每次问答都是孤立的,知识无法持续积累。而LLM Wiki让模型在一个由Markdown文件夹构成的“知识库”中持续工作:新文档加入后,模型会自动更新相关条目、修订摘要、补充内部链接、标记矛盾之处。用户可用Obsidian等工具浏览这个动态更新的Wiki。卡帕西比喻道:Obsidian是IDE(集成开发环境),LLM是程序员,而Wiki本身就是被持续维护的代码库。这让知识管理首次具备了类似软件工程的可积累、可版本控制的特性。

这三个案例殊途同归:软件1.0时代,我们亲手编写每一行指令;软件2.0时代,我们训练神经网络的权重;而软件3.0时代,我们的核心工作转变为设计提示词(Prompt)、管理上下文窗口(Context Window)和调度智能体(Agent)。

锯齿状背后的逻辑:可验证性与经济激励

阐释了新范式后,卡帕西深入剖析了根本问题:为何模型的智能呈现“锯齿状”?他认为,这主要不是一个技术瓶颈,而是一个经济学问题。

前沿实验室通过强化学习(RL)优化模型时,决定将哪些能力打包进训练数据分布,很大程度上取决于两个因素:该任务领域的可验证性(Verifiability),及其潜在的市场规模与收入(Revenue/TAM)。


强化学习依赖清晰的奖励信号(Reward),而奖励信号又依赖于任务结果的可验证性。像代码能否编译运行、数学答案是否正确、安全漏洞能否复现这类问题,易于构建自动化评估环境,模型在这些领域便能飞速进化。

但“可验证”仅是前提,“有商业价值”才是核心驱动力。OpenAI、Anthropic、Google等巨头选择优先攻克哪些方向,背后是严酷的商业考量。市场规模大、付费意愿强、能形成商业闭环的领域,会获得巨额资源投入,被精心打磨并整合进RL训练流程;反之,则可能缺乏关注。

卡帕西给出了一个形象的比喻:在强化学习铺设好的轨道上,模型的能力如同高速列车般飞驰;而一旦离开这些主流数据分布,就如同手持砍刀进入原始丛林,举步维艰。

因此,我们今天观察到的“锯齿状”,并非缺陷,而是一种必然的结构。它是“可验证性”与“经济激励”这两把刻刀,共同雕琢出的能力轮廓。

这对创业者至关重要。卡帕西在现场给出了直接建议:若想在AI领域创业,应寻找那些“可验证、但巨头尚未大规模投入”的垂直领域。然后亲自构建强化学习环境,收集领域数据,对基础模型进行微调(Fine-tune)。这可能是当下构建竞争护城河最有效的路径之一。

换言之,下一批成功的AI原生公司,其核心资产可能就是它们独有的“验证环境”。谁能定义出具有高价值的可验证任务、构建起高效的奖励循环(Reward Loop)、并积累起丰富的边缘案例(Edge Cases),谁就掌握了主动权。

卡帕西将看似神秘的AI能力不均衡现象,还原成了一个清晰可分析的工程与经济学交叉课题。

从“氛围编程”到“智能体工程”

2025年2月,卡帕西在X上创造了“Vibe Coding”(氛围编程)一词,用以描述那种高度依赖AI生成、开发者几乎不亲手编写底层代码的编程模式。该词迅速流行,甚至被柯林斯词典选为2025年度词汇。Cursor、Lovable、Replit等公司的崛起,也印证了这股趋势。

一年后,在此次对话中,他为这个概念升级了一个新词:智能体工程(Agentic Engineering)。

在他看来,两者扮演不同角色:“氛围编程”是“抬高地板”(Raising the Floor),它极大降低了编程门槛,让更多人能够参与创造;而“智能体工程”则是“保住天花板”(Preserving the Ceiling),它确保在AI的辅助下,专业级软件的质量和架构标准不会滑坡。


因为当前AI生成的代码,在卡帕西看来存在“臃肿”问题——包含大量重复代码,抽象设计古怪且脆弱,虽然能运行,但代码质量堪忧。

他举了一个真实案例:他的智能体在开发MenuGen时,竟试图用Stripe支付接口和Google登录返回的邮箱地址来做用户匹配,而不是使用一个持久化的唯一用户ID(User ID)。这种设计错误是任何有经验的工程师都会避免的,但智能体却会自然而然地犯下。

因此,卡帕西为智能体给出了一个精准定位:它们就像是一群“实习生”。实习生很有用,能承担大量基础工作,但你绝不会让他们独自负责生产环境的核心代码。需求定义、系统架构、安全保障、审美判断、结果验证……这些关键职责,智能体目前还无法独立承担。

“氛围编程”的爽感,主要体现在业余项目和快速原型构建上;而“智能体工程”则是专业软件开发的下一个阶段。前者降低了入门门槛,后者则对开发者提出了更高的系统设计和管控要求。两者不能混为一谈。

这也是当前行业容易陷入的误区。在“氛围编程”的热潮下,很多人高喊“人人都是程序员”,但卡帕西指出:能在智能体时代生存下来的工程师,不是那些写代码最快的,而是那些最懂得如何有效管理和驾驭智能体的“导演”。

思考可以外包,但理解无法替代

炉边谈话中,主持人提出了一个普遍的焦虑:当智能体能够编写代码、调度任务、自行安装软件时,人类的价值还剩下什么?

卡帕西引用了一条令他深受启发的推文来回答:“你可以外包你的思考,但你不能外包你的理解。”

他的解读是:人类仍然是整个流程的瓶颈,因为只有人类才真正知道自己要构建什么,以及为何要构建它。在智能体流程中,人类的角色演变为“工程管理”或“工程导演”。

具体而言,这个角色包含六个无法被完全替代的核心职能:

  1. 需求定义:清晰阐述要构建的目标。
  2. 拆解计划:将宏观目标分解为可执行的原子任务。
  3. 系统架构:决定系统的整体结构、组件关系与技术选型。
  4. 品味判断:评估哪个方案在质量、优雅度和用户体验上更优。
  5. 过程监督:确保智能体的执行过程不偏离预设轨道。
  6. 结果验证:最终确认智能体的产出是否正确、可靠、符合预期。

这六件事,智能体可以辅助,但无法承担最终责任。

卡帕西再次提及了他著名的“动物与幽灵”比喻。他认为,当前的前沿大模型研究不是在创造有内在动机的“动物”,而是在“召唤幽灵”。


幽灵没有自主意识,它的智能完全由外部数据和奖励信号塑造而成,是一个全新的物种。因此,我们不能像对待人类一样对待智能体,也不能像对待传统确定性软件一样对待它们。

而人类的位置,就是“导演”。导演不亲自扮演每个角色,但他必须懂戏,必须掌控全局。同样,未来的开发者可能不亲手写每一行代码,但他必须知道产品应该是什么样子、为何A方案优于B方案、以及系统上线后可能面临何种挑战。

Sequoia在2026年给出的观察是,AI应用的渗透速度正在加快,成功企业的规模天花板也在提升,“从0到1亿美元”的俱乐部正在向“从0到10亿美元”演进。顶尖的AI创业公司,其单员工年产值已超过百万美元。这背后是智能体在高效执行,但能让智能体产出如此巨大价值的,正是那些懂得如何当好“导演”的创始人。

在谈话尾声,卡帕西描绘了一个更遥远的愿景:未来某天,神经网络或许会成为计算机的主处理器,而传统的CPU则降级为协处理器。但即便走到那一步,“导演”的位置也不会消失。因为“幽灵”永远不会替你思考你究竟需要什么。那些无法被外包的部分,正是人类价值永恒的锚点。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策