AI核心术语详解：一文读懂所有关键概念

2026-06-06阅读 0热度 0

先说几个关键概念。如果你最近在关注AI，一定听说过LLM、Token、RAG、Agent这些词。说实话，它们确实有点绕，尤其是堆在一起的时候。实际上，整个AI技术栈可以拆成几个层次：基础层、交互层、协议层、架构层和应用层。下面一个一个来看，从最核心的概念说起。

LLM — 大语言模型

全称：Large Language Model。

简单来说，LLM是一个用海量文本（几乎整个互联网）训练出来的深度神经网络。它的核心任务听起来其实很简单：给定上文，预测下一个最合理的词。可能你注意到了，AI回答问题的时候总是一个字一个字往外蹦——没错，它的底层逻辑正是根据上一个字去联想下一个字，然后拼接起来，再继续联想后面的字。从这个意义上说，LLM就是我们日常使用的AI的大脑。

但需要注意一个关键点：它并不是真正的“理解”，而是基于统计规律的概率推理。规模是决定能力的关键因素——参数从几十亿到几千亿，越大的模型涌现的能力越强。代表模型包括GPT-4、Claude、Llama、Gemini和DeepSeek等。

来看一个Token拆分的例子：

原文	可能的 Token 拆分	Token 数
Hello world	[“Hello”, “ world”]	2
你好	[“你”, “好”]	2
ChatGPT is great	[“Chat”, “G”, “PT”, “ is”, “ great”]	5
人工智能	[“人工”, “智能”]	2

Token — 模型的“文字积木”

Token是LLM处理文本的最小基本单位。它既不是字母，也不是完整的词，而是介于两者之间的一个“块”。

为什么这个概念这么重要？主要有三个原因：第一，AI API按Token计费，直接关系到你的钱&包；第二，模型的上下文窗口以Token计量，决定了它能记住多少信息；第三，Token越多，响应越慢、成本越高。

Context — 模型的“工作记忆”

Context（上下文窗口）代表模型一次能看到的全部Token数量。可以这样想象：一个人一次性只能读5页书，你给他第1-5页，他读完后回答你的问题，然后你翻到第2-6页——他永远记不住第1页的内容了。这就是为什么连续提问时，AI的回答会包含上一个问题的相关内容。

上面是我对GPT提的两个问题，大家会发现这两个问题的回答有相同的内容，这就是Context的作用。它的底层逻辑是：当我们向LLM提问时，不只是发送刚写的内容，还会将以前的聊天内容一并发送过去，从而形成一个完整的情景。

不同模型的上下文窗口差异明显：

模型	上下文窗口	大约相当于
GPT-3	4K Token	~3000 字
GPT-4	32K Token	~2.5 万字
Claude 3	200K Token	~15 万字
Gemini 1.5	1M Token	~75 万字

上下文窗口能做的事情很广：长文档分析可以一次读取整本PDF或技术文档；大型代码理解能分析整个项目结构；长期对话记忆能记住更久的聊天内容；多文件推理则可以同时分析多个文件之间的关系。

RAG — 让模型“查资料”

全称：Retrieval-Augmented Generation（检索增强生成）。

RAG是一种架构模式：在模型回答之前，先从外部知识库中检索相关信息，然后把检索到的内容作为上下文注入给模型。举个例子，你可以问一个不太出名的人名，看看模型怎么回答：

GPT给我的回答非常模糊——其实“加华”是我家狗的名字，它不知道，所以乱回答。那么怎么让它知道呢？聪明如你，肯定想到了刚才提到的Context。但问题是，如果我有很多条信息要告诉它，Token又是有限的，该怎么办？

这就是RAG出场的时候了。RAG会通过Embedding模型把文本转成向量（比如text-embedding-3-small），然后在向量数据库中做相似度搜索，最后把检索结果和原始问题拼成模型能理解的格式发送给模型。这样一来，模型就能基于数据库给出比较准确的回答。

那么RAG和微调（Fine-tuning）有什么区别？来看对比：

对比项	RAG（检索增强生成）	微调（Fine-tuning）
数据更新	秒级更新，无需重新训练	需要重新训练模型
成本	较低	较高
幻觉控制	较好，可基于真实资料回答	一般，仍可能胡编
适用场景	知识问答、企业知识库	风格迁移、专业语气训练

Prompt — 你怎么说，它怎么答

一个好Prompt的结构通常包含：角色设定（你是一个资深Python工程师）、背景信息（用户代码库用的是FastAPI）、任务描述（帮我审查这段代码的安全性问题）、输出格式（列出3个问题+修复建议）和约束条件（用中文回答，给出代码示例）。

另外需要区分System Prompt和User Prompt。System Prompt是你在系统层面设定的指令，相当于给AI定规则；User Prompt则是每次提问时发送的具体问题。

Tool — 给模型装“插件”

Tool允许LLM调用外部系统来获取实时信息、执行操作。比如你想让AI帮你买一张飞往日本的机票，它肯定做不到——但如果给它装上了“手臂”，它就有可能做到了。Tool就是这个手臂。

没有工具的LLM像一个被锁在房间里的学者——他可以思考、可以回答，但没办法触碰外部世界。有了Tool，他就能：搜索实时信息、查数据库；创建文件、写数据库；运行代码、发请求、操作API；还能发邮件、发消息、调用第三方服务。

Tool的核心机制是函数调用（Function Calling），流程大概是这样的：用户说“帮我查一下北京的天气”，LLM分析后认为需要调用工具，于是返回一个结构化请求（比如调用get_weather(city=“Beijing”)），外部系统执行工具后返回结果（{ “temperature”: 28, “condition”: “sunny” }），LLM拿到结果后组织成自然语言回复。

常见工具类型包括：搜索引擎（解决实时信息问题）、代码执行器（精确计算和运行用户代码）、文件操作（读写本地文件）、数据库查询（结构化数据查询）、API调用（与外部系统交互）和图像生成（创建图片）。

MCP — 工具的“统一插座”

全称：Model Context Protocol（模型上下文协议）。

MCP是Anthropic提出的开放协议标准，用于统一LLM与外部工具、数据源之间的集成方式。可以理解为AI世界的USB-C接口。它的核心要素包括：Resources（暴露给模型的数据源）、Tools（模型可以调用的可执行操作）、Prompts（预定义的提示词模板）和Transport（通信方式，如stdio、SSE、WebSocket）。

Agent — 能自己干活的 AI

Agent（智能体）是一个能自主推理、规划、执行任务的LLM系统。它不仅仅是回答一个问题，而是为了实现一个目标，可以主动调用工具、分解任务、自我纠错。

核心能力包括：规划（将复杂任务分解为子步骤，类比项目经理制定计划）、工具调用（使用外部工具执行操作，类比程序员调API）、记忆管理（记住已经做了什么、还剩什么，类比便利贴清单）、自我纠错（结果不符预期时调整策略，类比试错学习）和推理（在多个可能路径中选择最优解，类比下棋思考多步）。

Skill — AI 的“肌肉记忆”

Skill（技能）是一个封装好的、可复用的LLM任务执行模板——融合了System Prompt、工具配置、处理逻辑，让模型在特定任务上表现更稳定、更高效。

它的优势很明显：一致性（同样的任务每次都以同样的高质量完成）、高效率（不需要每次都从头设计Prompt）、可组合（多个Skill可以组合完成复杂任务）和经验沉淀（最佳实践固化在Skill中，团队共享）。

一张图总结

整个体系可以用一个分层结构来理解：

基础层：Token → Context → LLM
交互层：Prompt（你怎么说）+ Tool（它能做什么）
协议层：MCP（标准化对接）
架构层：RAG（查资料）+ Agent（自主干）
应用层：Skill（封装成技能包）

最后，一张表帮你快速回顾所有概念：

术语	通俗解释	你可以这样理解
LLM（Large Language Model）	用海量数据训练出来的文字生成“大脑”	像一个超级学霸AI
Token	AI处理文字时的最小单位，也是计费单位	类似“文字积木”
Context（上下文）	AI一次性能看到、记住的内容范围	AI的“短期记忆”
RAG（检索增强生成）	AI回答前先查资料再回答	开卷考试
Prompt（提示词）	你给AI的指令	你怎么问，AI怎么答
Tool（工具）	让AI能调用外部能力	给AI装上双手和工具箱
MCP（Model Context Protocol）	AI与工具之间的标准协议	AI世界的“USB接口”
Agent（智能体）	能自主规划并执行任务的AI	会自己干活的AI员工
Skill（技能）	封装好的可复用能力模块	AI的技能卡