AI核心术语详解:一文读懂所有关键概念

2026-06-06阅读 0热度 0
ai

先说几个关键概念。如果你最近在关注AI,一定听说过LLM、Token、RAG、Agent这些词。说实话,它们确实有点绕,尤其是堆在一起的时候。实际上,整个AI技术栈可以拆成几个层次:基础层、交互层、协议层、架构层和应用层。下面一个一个来看,从最核心的概念说起。

LLM — 大语言模型

全称:Large Language Model。

简单来说,LLM是一个用海量文本(几乎整个互联网)训练出来的深度神经网络。它的核心任务听起来其实很简单:给定上文,预测下一个最合理的词。可能你注意到了,AI回答问题的时候总是一个字一个字往外蹦——没错,它的底层逻辑正是根据上一个字去联想下一个字,然后拼接起来,再继续联想后面的字。从这个意义上说,LLM就是我们日常使用的AI的大脑。

但需要注意一个关键点:它并不是真正的“理解”,而是基于统计规律的概率推理。规模是决定能力的关键因素——参数从几十亿到几千亿,越大的模型涌现的能力越强。代表模型包括GPT-4、Claude、Llama、Gemini和DeepSeek等。

来看一个Token拆分的例子:

原文可能的 Token 拆分Token 数
Hello world[“Hello”, “ world”]2
你好[“你”, “好”]2
ChatGPT is great[“Chat”, “G”, “PT”, “ is”, “ great”]5
人工智能[“人工”, “智能”]2

Token — 模型的“文字积木”

Token是LLM处理文本的最小基本单位。它既不是字母,也不是完整的词,而是介于两者之间的一个“块”。

为什么这个概念这么重要?主要有三个原因:第一,AI API按Token计费,直接关系到你的钱&包;第二,模型的上下文窗口以Token计量,决定了它能记住多少信息;第三,Token越多,响应越慢、成本越高。


Context — 模型的“工作记忆”

Context(上下文窗口)代表模型一次能看到的全部Token数量。可以这样想象:一个人一次性只能读5页书,你给他第1-5页,他读完后回答你的问题,然后你翻到第2-6页——他永远记不住第1页的内容了。这就是为什么连续提问时,AI的回答会包含上一个问题的相关内容。


上面是我对GPT提的两个问题,大家会发现这两个问题的回答有相同的内容,这就是Context的作用。它的底层逻辑是:当我们向LLM提问时,不只是发送刚写的内容,还会将以前的聊天内容一并发送过去,从而形成一个完整的情景。

不同模型的上下文窗口差异明显:

模型上下文窗口大约相当于
GPT-34K Token~3000 字
GPT-432K Token~2.5 万字
Claude 3200K Token~15 万字
Gemini 1.51M Token~75 万字

上下文窗口能做的事情很广:长文档分析可以一次读取整本PDF或技术文档;大型代码理解能分析整个项目结构;长期对话记忆能记住更久的聊天内容;多文件推理则可以同时分析多个文件之间的关系。


RAG — 让模型“查资料”

全称:Retrieval-Augmented Generation(检索增强生成)。

RAG是一种架构模式:在模型回答之前,先从外部知识库中检索相关信息,然后把检索到的内容作为上下文注入给模型。举个例子,你可以问一个不太出名的人名,看看模型怎么回答:

GPT给我的回答非常模糊——其实“加华”是我家狗的名字,它不知道,所以乱回答。那么怎么让它知道呢?聪明如你,肯定想到了刚才提到的Context。但问题是,如果我有很多条信息要告诉它,Token又是有限的,该怎么办?

这就是RAG出场的时候了。RAG会通过Embedding模型把文本转成向量(比如text-embedding-3-small),然后在向量数据库中做相似度搜索,最后把检索结果和原始问题拼成模型能理解的格式发送给模型。这样一来,模型就能基于数据库给出比较准确的回答。

那么RAG和微调(Fine-tuning)有什么区别?来看对比:

对比项RAG(检索增强生成)微调(Fine-tuning)
数据更新秒级更新,无需重新训练需要重新训练模型
成本较低较高
幻觉控制较好,可基于真实资料回答一般,仍可能胡编
适用场景知识问答、企业知识库风格迁移、专业语气训练

Prompt — 你怎么说,它怎么答

一个好Prompt的结构通常包含:角色设定(你是一个资深Python工程师)、背景信息(用户代码库用的是FastAPI)、任务描述(帮我审查这段代码的安全性问题)、输出格式(列出3个问题+修复建议)和约束条件(用中文回答,给出代码示例)。

另外需要区分System Prompt和User Prompt。System Prompt是你在系统层面设定的指令,相当于给AI定规则;User Prompt则是每次提问时发送的具体问题。


Tool — 给模型装“插件”

Tool允许LLM调用外部系统来获取实时信息、执行操作。比如你想让AI帮你买一张飞往日本的机票,它肯定做不到——但如果给它装上了“手臂”,它就有可能做到了。Tool就是这个手臂。

没有工具的LLM像一个被锁在房间里的学者——他可以思考、可以回答,但没办法触碰外部世界。有了Tool,他就能:搜索实时信息、查数据库;创建文件、写数据库;运行代码、发请求、操作API;还能发邮件、发消息、调用第三方服务。

Tool的核心机制是函数调用(Function Calling),流程大概是这样的:用户说“帮我查一下北京的天气”,LLM分析后认为需要调用工具,于是返回一个结构化请求(比如调用get_weather(city=“Beijing”)),外部系统执行工具后返回结果({ “temperature”: 28, “condition”: “sunny” }),LLM拿到结果后组织成自然语言回复。

常见工具类型包括:搜索引擎(解决实时信息问题)、代码执行器(精确计算和运行用户代码)、文件操作(读写本地文件)、数据库查询(结构化数据查询)、API调用(与外部系统交互)和图像生成(创建图片)。


MCP — 工具的“统一插座”

全称:Model Context Protocol(模型上下文协议)。

MCP是Anthropic提出的开放协议标准,用于统一LLM与外部工具、数据源之间的集成方式。可以理解为AI世界的USB-C接口。它的核心要素包括:Resources(暴露给模型的数据源)、Tools(模型可以调用的可执行操作)、Prompts(预定义的提示词模板)和Transport(通信方式,如stdio、SSE、WebSocket)。


Agent — 能自己干活的 AI

Agent(智能体)是一个能自主推理、规划、执行任务的LLM系统。它不仅仅是回答一个问题,而是为了实现一个目标,可以主动调用工具、分解任务、自我纠错。

核心能力包括:规划(将复杂任务分解为子步骤,类比项目经理制定计划)、工具调用(使用外部工具执行操作,类比程序员调API)、记忆管理(记住已经做了什么、还剩什么,类比便利贴清单)、自我纠错(结果不符预期时调整策略,类比试错学习)和推理(在多个可能路径中选择最优解,类比下棋思考多步)。


Skill — AI 的“肌肉记忆”

Skill(技能)是一个封装好的、可复用的LLM任务执行模板——融合了System Prompt、工具配置、处理逻辑,让模型在特定任务上表现更稳定、更高效。

它的优势很明显:一致性(同样的任务每次都以同样的高质量完成)、高效率(不需要每次都从头设计Prompt)、可组合(多个Skill可以组合完成复杂任务)和经验沉淀(最佳实践固化在Skill中,团队共享)。


一张图总结

整个体系可以用一个分层结构来理解:

基础层:Token → Context → LLM
交互层:Prompt(你怎么说)+ Tool(它能做什么)
协议层:MCP(标准化对接)
架构层:RAG(查资料)+ Agent(自主干)
应用层:Skill(封装成技能包)

最后,一张表帮你快速回顾所有概念:

术语通俗解释你可以这样理解
LLM(Large Language Model)用海量数据训练出来的文字生成“大脑”像一个超级学霸AI
TokenAI处理文字时的最小单位,也是计费单位类似“文字积木”
Context(上下文)AI一次性能看到、记住的内容范围AI的“短期记忆”
RAG(检索增强生成)AI回答前先查资料再回答开卷考试
Prompt(提示词)你给AI的指令你怎么问,AI怎么答
Tool(工具)让AI能调用外部能力给AI装上双手和工具箱
MCP(Model Context Protocol)AI与工具之间的标准协议AI世界的“USB接口”
Agent(智能体)能自主规划并执行任务的AI会自己干活的AI员工
Skill(技能)封装好的可复用能力模块AI的技能卡
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策