AI核心术语详解:一文读懂所有关键概念
先说几个关键概念。如果你最近在关注AI,一定听说过LLM、Token、RAG、Agent这些词。说实话,它们确实有点绕,尤其是堆在一起的时候。实际上,整个AI技术栈可以拆成几个层次:基础层、交互层、协议层、架构层和应用层。下面一个一个来看,从最核心的概念说起。
LLM — 大语言模型
全称:Large Language Model。
简单来说,LLM是一个用海量文本(几乎整个互联网)训练出来的深度神经网络。它的核心任务听起来其实很简单:给定上文,预测下一个最合理的词。可能你注意到了,AI回答问题的时候总是一个字一个字往外蹦——没错,它的底层逻辑正是根据上一个字去联想下一个字,然后拼接起来,再继续联想后面的字。从这个意义上说,LLM就是我们日常使用的AI的大脑。
但需要注意一个关键点:它并不是真正的“理解”,而是基于统计规律的概率推理。规模是决定能力的关键因素——参数从几十亿到几千亿,越大的模型涌现的能力越强。代表模型包括GPT-4、Claude、Llama、Gemini和DeepSeek等。
来看一个Token拆分的例子:
| 原文 | 可能的 Token 拆分 | Token 数 |
|---|---|---|
| Hello world | [“Hello”, “ world”] | 2 |
| 你好 | [“你”, “好”] | 2 |
| ChatGPT is great | [“Chat”, “G”, “PT”, “ is”, “ great”] | 5 |
| 人工智能 | [“人工”, “智能”] | 2 |
Token — 模型的“文字积木”
Token是LLM处理文本的最小基本单位。它既不是字母,也不是完整的词,而是介于两者之间的一个“块”。
为什么这个概念这么重要?主要有三个原因:第一,AI API按Token计费,直接关系到你的钱&包;第二,模型的上下文窗口以Token计量,决定了它能记住多少信息;第三,Token越多,响应越慢、成本越高。
Context — 模型的“工作记忆”
Context(上下文窗口)代表模型一次能看到的全部Token数量。可以这样想象:一个人一次性只能读5页书,你给他第1-5页,他读完后回答你的问题,然后你翻到第2-6页——他永远记不住第1页的内容了。这就是为什么连续提问时,AI的回答会包含上一个问题的相关内容。
上面是我对GPT提的两个问题,大家会发现这两个问题的回答有相同的内容,这就是Context的作用。它的底层逻辑是:当我们向LLM提问时,不只是发送刚写的内容,还会将以前的聊天内容一并发送过去,从而形成一个完整的情景。
不同模型的上下文窗口差异明显:
| 模型 | 上下文窗口 | 大约相当于 |
|---|---|---|
| GPT-3 | 4K Token | ~3000 字 |
| GPT-4 | 32K Token | ~2.5 万字 |
| Claude 3 | 200K Token | ~15 万字 |
| Gemini 1.5 | 1M Token | ~75 万字 |
上下文窗口能做的事情很广:长文档分析可以一次读取整本PDF或技术文档;大型代码理解能分析整个项目结构;长期对话记忆能记住更久的聊天内容;多文件推理则可以同时分析多个文件之间的关系。
RAG — 让模型“查资料”
全称:Retrieval-Augmented Generation(检索增强生成)。
RAG是一种架构模式:在模型回答之前,先从外部知识库中检索相关信息,然后把检索到的内容作为上下文注入给模型。举个例子,你可以问一个不太出名的人名,看看模型怎么回答:
GPT给我的回答非常模糊——其实“加华”是我家狗的名字,它不知道,所以乱回答。那么怎么让它知道呢?聪明如你,肯定想到了刚才提到的Context。但问题是,如果我有很多条信息要告诉它,Token又是有限的,该怎么办?
这就是RAG出场的时候了。RAG会通过Embedding模型把文本转成向量(比如text-embedding-3-small),然后在向量数据库中做相似度搜索,最后把检索结果和原始问题拼成模型能理解的格式发送给模型。这样一来,模型就能基于数据库给出比较准确的回答。
那么RAG和微调(Fine-tuning)有什么区别?来看对比:
| 对比项 | RAG(检索增强生成) | 微调(Fine-tuning) |
|---|---|---|
| 数据更新 | 秒级更新,无需重新训练 | 需要重新训练模型 |
| 成本 | 较低 | 较高 |
| 幻觉控制 | 较好,可基于真实资料回答 | 一般,仍可能胡编 |
| 适用场景 | 知识问答、企业知识库 | 风格迁移、专业语气训练 |
Prompt — 你怎么说,它怎么答
一个好Prompt的结构通常包含:角色设定(你是一个资深Python工程师)、背景信息(用户代码库用的是FastAPI)、任务描述(帮我审查这段代码的安全性问题)、输出格式(列出3个问题+修复建议)和约束条件(用中文回答,给出代码示例)。
另外需要区分System Prompt和User Prompt。System Prompt是你在系统层面设定的指令,相当于给AI定规则;User Prompt则是每次提问时发送的具体问题。
Tool — 给模型装“插件”
Tool允许LLM调用外部系统来获取实时信息、执行操作。比如你想让AI帮你买一张飞往日本的机票,它肯定做不到——但如果给它装上了“手臂”,它就有可能做到了。Tool就是这个手臂。
没有工具的LLM像一个被锁在房间里的学者——他可以思考、可以回答,但没办法触碰外部世界。有了Tool,他就能:搜索实时信息、查数据库;创建文件、写数据库;运行代码、发请求、操作API;还能发邮件、发消息、调用第三方服务。
Tool的核心机制是函数调用(Function Calling),流程大概是这样的:用户说“帮我查一下北京的天气”,LLM分析后认为需要调用工具,于是返回一个结构化请求(比如调用get_weather(city=“Beijing”)),外部系统执行工具后返回结果({ “temperature”: 28, “condition”: “sunny” }),LLM拿到结果后组织成自然语言回复。
常见工具类型包括:搜索引擎(解决实时信息问题)、代码执行器(精确计算和运行用户代码)、文件操作(读写本地文件)、数据库查询(结构化数据查询)、API调用(与外部系统交互)和图像生成(创建图片)。
MCP — 工具的“统一插座”
全称:Model Context Protocol(模型上下文协议)。
MCP是Anthropic提出的开放协议标准,用于统一LLM与外部工具、数据源之间的集成方式。可以理解为AI世界的USB-C接口。它的核心要素包括:Resources(暴露给模型的数据源)、Tools(模型可以调用的可执行操作)、Prompts(预定义的提示词模板)和Transport(通信方式,如stdio、SSE、WebSocket)。
Agent — 能自己干活的 AI
Agent(智能体)是一个能自主推理、规划、执行任务的LLM系统。它不仅仅是回答一个问题,而是为了实现一个目标,可以主动调用工具、分解任务、自我纠错。
核心能力包括:规划(将复杂任务分解为子步骤,类比项目经理制定计划)、工具调用(使用外部工具执行操作,类比程序员调API)、记忆管理(记住已经做了什么、还剩什么,类比便利贴清单)、自我纠错(结果不符预期时调整策略,类比试错学习)和推理(在多个可能路径中选择最优解,类比下棋思考多步)。
Skill — AI 的“肌肉记忆”
Skill(技能)是一个封装好的、可复用的LLM任务执行模板——融合了System Prompt、工具配置、处理逻辑,让模型在特定任务上表现更稳定、更高效。
它的优势很明显:一致性(同样的任务每次都以同样的高质量完成)、高效率(不需要每次都从头设计Prompt)、可组合(多个Skill可以组合完成复杂任务)和经验沉淀(最佳实践固化在Skill中,团队共享)。
一张图总结
整个体系可以用一个分层结构来理解:
基础层:Token → Context → LLM
交互层:Prompt(你怎么说)+ Tool(它能做什么)
协议层:MCP(标准化对接)
架构层:RAG(查资料)+ Agent(自主干)
应用层:Skill(封装成技能包)
最后,一张表帮你快速回顾所有概念:
| 术语 | 通俗解释 | 你可以这样理解 |
|---|---|---|
| LLM(Large Language Model) | 用海量数据训练出来的文字生成“大脑” | 像一个超级学霸AI |
| Token | AI处理文字时的最小单位,也是计费单位 | 类似“文字积木” |
| Context(上下文) | AI一次性能看到、记住的内容范围 | AI的“短期记忆” |
| RAG(检索增强生成) | AI回答前先查资料再回答 | 开卷考试 |
| Prompt(提示词) | 你给AI的指令 | 你怎么问,AI怎么答 |
| Tool(工具) | 让AI能调用外部能力 | 给AI装上双手和工具箱 |
| MCP(Model Context Protocol) | AI与工具之间的标准协议 | AI世界的“USB接口” |
| Agent(智能体) | 能自主规划并执行任务的AI | 会自己干活的AI员工 |
| Skill(技能) | 封装好的可复用能力模块 | AI的技能卡 |


