AI大模型进化史:近年里程碑盘点
### 第一阶段:给模型装上“感知层”与“记忆层”
想要模型处理你的私有文档,或者记住上周的对话上下文?必须为其配备对应组件。
* **RAG:模型的开卷考试机制。** 即检索增强生成。核心流程:先将文档切片、建立索引(向量化)。当用户提问时,模型先到你的“外部知识库”中检索最相关的几段内容,再结合这些片段生成答案。这精准解决了模型“不了解企业内部流程”或“胡编乱造”(幻觉)的痛点。
* **向量数据库:专为语义检索优化的存储层。** 上述索引就存放在这里。像Milvus这类专用引擎,针对高维向量的存储与近邻搜索做了极致优化,查询延迟控制在毫秒级。
* **Memory:对话系统的“工作记忆”。** 决定了AI是“一问三不知”还是“知根知底”。主流实现方式有三种:
* **截断:** 仅保留最近几轮对话,简单高效但丢失长程依赖。
* **总结:** 将长篇对话压缩成要点摘要,兼顾效率与信息保留。
* **检索:** 类似RAG机制,从历史对话中精确搜索相关片段,精度最高。
有了记忆,模型才不会忘记你上周交代的任务细节。
### 第二阶段:给模型装上“执行器”与“适配器”
光说不练不够。要让模型真正操控电脑、访问网页、写入文件,必须授予其“工具”。
* **Tool:AI的“可编程外设”。** 通过函数调用(Function Calling),模型能执行代码、查询天气API、操作本地文件。你看到Cursor写代码、Manus自动操作浏览器,本质都是模型在循环调用一系列Tool。
* **Output Parser:确保指令“手眼协调”。** 模型输出的是自然语言,但Tool需要结构化指令(如JSON)。Output Parser负责将“人话”翻译成机器可执行的命令,保证参数无误。
* **MCP:工具连接的“通用协议”。** Anthropic提出的开放标准,类似USB-C。在此之前,每个Tool的调用方式各异,像“万国插座”。MCP统一了接口规范,让AI能以安全、标准的方式发现并调用各类工具(如高德地图、浏览器操作),极大提升工具的可复用性与生态兼容性。
### 第三阶段:串联成完整的“智能体”
现在,大脑、记忆、双手就位,还需要一个“中枢神经系统”来统筹全局。
* **AI Agent:智能体的最终形态。** 一个能理解目标、制定计划、调用工具,并利用记忆与知识自主执行任务的大模型系统。它是前述所有能力的集成体。
* **LangChain:构建单Agent的“乐高指南”。** 最流行的编排框架。它提供标准化的“积木块”(模型调用、提示词、工具、记忆)和“连接件”(链),让你快速搭建完整工作流。
* **LangGraph:多Agent协奏的“总指挥”。** 当任务需要搜索、分析、撰写报告等多角色协作时,LangGraph登场。它基于LangChain,用“图”结构管理多个Agent之间的协作流程与状态流转,类似“流程图设计器”。
---
### 名词速查手册
为方便随时查阅,我把核心名词整理成表格,并附上直观类比:
| 类别 | 名词 | 核心解释 | 类比 |
| :--- | :--- | :--- | :--- |
| **核心技术** | **RAG** | 检索增强生成。回答前先从外部知识库检索信息,生成更准确、实时的答案,有效抑制“幻觉”。 | 像“开卷考试”,允许查阅指定资料。 |
| | **Memory** | 记忆。系统保留历史对话/状态,保证交互连续性与上下文理解。 | 像聊天对象的“记忆力”,决定交流深度。 |
| | **Prompt工程** | 提示词工程。精心设计指令,引导模型输出期望结果,是高效交互的核心技能。 | 像给才华横溢但需要引导的助手“下任务”。 |
| | **Tool** | 工具。模型可调用的外部功能(如计算器、API),赋予其“行动”能力。 | 像给模型配了把“瑞士军刀”,能说也能做。 |
| **框架与协议** | **LangChain** | 开发LLM应用的知名框架。通过“链”的形式,模块化连接模型、工具、记忆等。 | 像AI开发的“乐高积木箱”,提供标准组件。 |
| | **LangGraph** | 基于LangChain的扩展,用于构建复杂状态和循环的智能体工作流。 | 像AI智能体的“流程图设计器”,处理复杂任务。 |
| | **MCP** | 模型上下文协议。旨在标准化AI应用与外部数据/工具的连接方式,提升安全性和效率。 | 像AI世界的“USB-C标准”,让连接更统一。 |
除上述内容外,还有一些学习和面试高频概念,一并列出:
**一、大模型基础相关**
| 名词 | 解释 |
| :--- | :--- |
| **LLM** | 大语言模型,基于海量数据训练的文本生成模型,如GPT-4。 |
| **Token** | 词元,模型处理文本的基本单位,影响成本与长度限制。 |
| **Completion** | 补全,模型根据输入生成的后续文本。 |
| **Fine-tuning** | 微调,用特定数据“再训练”模型,使其适应专门任务。 |
| **幻觉** | 模型生成看似合理但事实错误的内容,是RAG要解决的核心问题。 |
**二、智能体与架构相关**
| 名词 | 解释 |
| :--- | :--- |
| **Agent** | 智能体,能理解目标、计划、调用工具的自主系统,是AI应用的高级形态。 |
| **ReAct** | 推理与行动,一种智能体框架范式,让模型循环“推理-行动”直至完成任务。 |
| **CoT** | 思维链,一种提示技巧,要求模型输出推理步骤,显著提升复杂任务准确率。 |
| **Function Calling** | 函数调用,模型输出结构化参数以调用预设工具的能力。 |
**三、工程与部署相关**
| 名词 | 解释 |
| :--- | :--- |
| **Embedding** | 向量嵌入,将数据转化为语义向量,是RAG检索的基础。 |
| **Vector DB** | 向量数据库,高效存储和检索向量,如Pinecone、Wea viate。 |
| **Streaming** | 流式输出,将结果分块实时传输,实现逐字打印效果,提升体验。 |
| **Orchestration** | 编排,协调和管理多个AI组件完成复杂任务,LangChain即为编排框架。 |
最后,用一张架构图帮你理解这些组件在系统层面的位置:
可以看到,**RAG**连接知识库,为**LLM**提供外部信息;**Tool**是智能体调用外界能力的桥梁;**LangChain/LangGraph**则充当整个编排层的角色。理解了这张图,你就掌握了AI应用架构的核心。