AI必知名词汇总：人工智能术语大全

2026-06-11阅读 0热度 0

人工智能

人工智能（AI）最近有多火，想必不用多说了。对于想要踏入这个领域的同学来说，弄清楚那些绕不开的专业名词，是入门的第一步。这个领域的概念确实不少，为了方便快速上手，这里把常见的、重要的AI名词按照类别做了整理和解释。从最基础的理论到前沿的技术，这份术语表希望能帮你建立起一个清晰的认知框架。

01 基础概念

人工智能（Artificial Intelligence，AI），简单来说，就是让机器能像人一样思考、学习和做决策。它涵盖了从理论到应用的各种技术，目标是模拟、延伸甚至扩展人类的智能。

图灵测试（Turing Test），这是AI早期的“判官”，由艾伦·图灵提出。如果一台机器在对话中能让人类无法分辨它是人还是机器，那就可以认为它具备了智能。

强人工智能 vs 弱人工智能，这个区别很关键：

弱人工智能（Weak AI/Narrow AI）：专攻某一特定任务，比如人脸识别、语音助手。目前我们接触到的AI都属于这一类。
强人工智能（Strong AI/AGI）：目标是达到与人类同等的通用智能，能理解、学习并解决任何问题。不过，这个版本目前还只是理论中的“理想型”。

超人工智能（Artificial Superintelligence，ASI），可以看作是AI的终极形态，理论上在所有领域都远超最聪明的人类。当然，这还停留在科幻的阶段。

智能体（Agent），可以理解为“智能的实体”，它能够感知环境并采取行动来实现目标。可以是软件程序，比如聊天机器人，也可以是硬件设备，像机器人。

02 机器学习（Machine Learning，ML）

机器学习是实现AI的一条核心路径。它的本质就是让计算机通过数据来“学习”，从经验中自动改进，而不是预先被编程好每一步。

监督学习（Supervised Learning），相当于“有标准答案的考试”。我们给模型喂带标签的数据，比如告诉它“这个是猫”、“那个是狗”，让它学会输入和输出之间的对应关系，然后去识别新的图片。

无监督学习（Unsupervised Learning），就是“自己摸索规律”。我们给模型一堆没有标签的数据，让它自己去发现数据中的内在结构或模式，比如用于客户分群。

半监督学习（Semi-supervised Learning），可以看作是“少量标准答案+大量自主探索”。只用一点带标签的数据，再结合海量无标签数据来训练模型，能有效降低人工标注成本。

强化学习（Reinforcement Learning，RL），有点像训练小狗：做对了给奖励，做错了没奖励（或者给惩罚）。智能体通过和环境不断交互，根据奖惩信号来学习最优策略。AlphaGo和自动驾驶都用到这个技术。

特征（Feature），就是用来描述数据的属性或变量。比如预测房价，面积、卧室数量就是特征。

标签（Label），是监督学习中我们希望预测的结果。比如判断垃圾邮件，“是”或者“否”就是标签。

模型（Model），可以理解成算法从数据里学到的“规律”或“经验”。训练完成后，我们就用这个模型来预测新的数据。

训练（Training），一个不断调整模型参数、让它的预测误差尽可能小的过程。

过拟合（Overfitting），模型把训练数据里的细枝末节，甚至是噪声都记住了。结果是考试（训练）成绩极好，但一考新题（测试数据）就露馅，表现很差。

欠拟合（Underfitting），模型过于简单，连训练数据里的基本规律都没学会。结果就是训练和测试的表现都不好。

泛化能力（Generalization），模型“举一反三”的能力，是衡量一个模型好坏的关键指标。

交叉验证（Cross-validation），一种更稳健的模型评估方法。把数据分成几份，轮流当训练集和验证集，多次验证后再取平均，避免偶然性。

偏差与方差（Bias and Variance），

偏差：模型预测值和真实值的差距。高偏差通常意味着欠拟合。
方差：模型对训练数据波动的敏感度。高方差通常意味着过拟合。

损失函数（Loss Function），用来衡量模型预测值和真实值之间差距的函数。训练的目标就是让这个损失值尽可能小。

梯度下降（Gradient Descent），核心优化算法。计算损失函数对参数的“梯度”，然后沿着梯度相反的方向更新参数，一步一步地让损失最小化。可以想象成蒙着眼睛下山，顺着最陡的方向往下走。

超参数（Hyperparameter），在训练开始前就设好的“参数”，比如学习率、神经网络的层数。这些不是模型自己学出来的，而是需要人为调整的。

03 深度学习（Deep Learning，DL）

深度学习是机器学习的一个子集，它的核心是构建多层的神经网络，自动地提取数据的层次化特征。简单说，就是让机器自己学会看“门道”。

神经网络（Neural Network），一种模拟人脑神经元结构的计算模型。它由输入层、隐藏层和输出层组成，每层里都有许多神经元。

神经元（Neuron），网络的基本单元。它接收输入，进行加权求和，然后通过激活函数输出结果。

激活函数（Activation Function），为网络引入非线性的“开关”。没有它，网络就学不了复杂模式。常用的有ReLU、Sigmoid、Tanh。

层（Layer），

输入层：接收原始数据。
隐藏层：中间计算层，可以有很多层。
输出层：输出最终结果。

深度神经网络（Deep Neural Network，DNN），具有多个隐藏层的神经网络。深度学习的“深”就体现在这里。

卷积神经网络（Convolutional Neural Network，CNN），专门为处理网格状数据（如图像）设计的。它通过卷积核来提取局部特征，是计算机视觉领域的基石。

循环神经网络（Recurrent Neural Network，RNN），擅长处理序列数据，比如文本、时间序列。它有“记忆”能力，但存在长程依赖问题（记不住太久远的信息）。

长短期记忆网络（Long Short-Term Memory，LSTM），RNN的一种改进版本，通过精巧的“门控”机制，很好地解决了长期依赖问题。

门控循环单元（Gated Recurrent Unit，GRU），LSTM的简化版，参数更少，训练起来更快。

Transformer，基于自注意力机制的架构，可以说是彻底碘伏了自然语言处理领域，BERT、GPT等大名鼎鼎的模型都是建立在它之上。

自注意力（Self-Attention），Transformer的核心思想。它允许序列中的每个位置关注到序列中所有其他位置，从而捕捉长距离的依赖关系。

多头注意力（Multi-Head Attention），把自注意力机制并行执行多次，从不同的表示子空间学习信息，就像从多个角度同时观察。

前馈网络（Feed-Forward Network，FFN），Transformer中的一个组成部分，对每个位置的表示进行非线性变换。

位置编码（Positional Encoding），因为Transformer本身没有顺序概念，所以需要额外为输入序列中的每个词添加位置信息，告诉模型它们的前后顺序。

残差连接（Residual Connection），把输入直接加到输出上。这个简单的操作缓解了深层网络中常见的梯度消失问题，让训练更深的网络成为可能。

层归一化（Layer Normalization），对每个样本的特征进行归一化，可以稳定训练过程。

反向传播（Backpropagation），训练神经网络的核心算法。它计算损失函数对每个参数的梯度，然后根据这个梯度去更新网络权重。

优化器（Optimizer），实现梯度下降的具体算法，比如SGD、Adam、RMSprop。不同的优化器收敛速度和效果不一样。

批量（Batch），一次训练中同时输入模型的样本数量。

轮次（Epoch），完整遍历一次整个训练数据集。

学习率（Learning Rate），梯度下降中参数更新的步长。步子太大容易震荡，太小则收敛太慢。

嵌入（Embedding），把离散的对象（比如词语、商品）映射到一个连续的低维向量空间。这样，语义相近的对象在向量空间里也靠得更近。

词嵌入（Word Embedding），把单词表示为低维稠密向量，比如Word2Vec、GloVe。

04 自然语言处理（Natural Language Processing，NLP）

目标是让计算机能理解、生成和处理人类的语言。

分词（Tokenization），把文本切分成更小的单元，比如词、子词或字符。

词性标注（Part-of-Speech Tagging），给每个词标注词性，比如名词、动词、形容词。

命名实体识别（Named Entity Recognition，NER），识别文本中的专有名词，比如人名、地名、机构名称。

句法分析（Parsing），分析句子的语法结构，找出词语之间的依存关系。

语义理解（Semantic Understanding），理解文本的真正含义，包括词义消歧、意图识别等。

情感分析（Sentiment Analysis），判断文本的情感倾向，是正面、负面还是中性。

机器翻译（Machine Translation，MT），把一种语言自动翻译成另一种语言。

文本生成（Text Generation），根据输入自动生成连贯的文本，比如写新闻稿、写诗。

问答系统（Question Answering，QA），自动回答用户提出的问题。

对话系统（Dialogue System），能够和用户进行多轮对话的系统，比如聊天机器人、智能客服。

预训练语言模型（Pre-trained Language Model，PLM），在大规模文本数据上预先训练好的语言模型。下游任务只需要在它基础上进行微调就能用，大大节省了训练成本。

BERT（Bidirectional Encoder Representations from Transformers），Google提出的双向Transformer编码器，特别擅长理解上下文，适合分类、阅读理解这类任务。

GPT（Generative Pre-trained Transformer），OpenAI提出的自回归语言模型，核心能力是文本生成。

大语言模型（Large Language Model，LLM），参数规模高达数十亿甚至数千亿的语言模型，是当前AI领域最受关注的明星。

上下文学习（In-Context Learning），大模型的一种神奇能力，只需通过提示词（prompt）中给出的示例，就能直接学习完成任务，无需更新参数。

思维链（Chain-of-Thought，CoT），引导大模型在回答之前先生成一步步的推理过程，能显著提升解决复杂问题的能力。

提示工程（Prompt Engineering），设计输入提示词，以引导大模型生成期望输出的技术。这现在几乎成了一门新的“语言艺术”。

微调（Fine-tuning），在预训练模型的基础上，用特定任务的数据继续训练，让模型适应具体的下游任务。

RLHF（Reinforcement Learning from Human Feedback），基于人类反馈的强化学习。这是让大模型的输出更符合人类偏好（更安全、更有用）的关键技术。

幻觉（Hallucination），大模型会“一本正经地胡说八道”，生成看起来合理但事实上错误或无依据的内容。这是当前大模型需要解决的一大难题。

05 计算机视觉（Computer Vision，CV）

目标是让计算机能理解和处理图像、视频等视觉信息。

图像分类（Image Classification），给一张图分到一个预定义的类别中，比如判断是猫还是狗。

目标检测（Object Detection），不仅要识别出图片里有哪些物体，还要用框把它们的位置标出来。

图像分割（Image Segmentation），更精细的像素级分类：

语义分割：给每个像素分配一个类别标签，比如把图中所有“猫”的区域都标出来。
实例分割：不仅标出“猫”，还能区分出不同的“猫”个体。

人脸识别（Face Recognition），识别或验证图像中的人脸身份。

图像生成（Image Generation），根据输入（如一段文本或一张随机噪声图）生成新的图像。GAN和扩散模型是其中的代表。

图像超分辨率（Super-Resolution），从低分辨率图像重建出高分辨率图像。

图像风格迁移（Style Transfer），把一幅图像的“风格”（比如梵高的画风）应用到另一幅图像上。

卷积核（Kernel/Filter），CNN里用来提取特征的矩阵，在图像上滑动进行卷积操作。

池化（Pooling），降低特征图尺寸的操作，可以保留主要特征，减少计算量。

感受野（Receptive Field），网络中某层神经元所对应的原始输入图像的区域大小。

06 强化学习（Reinforcement Learning）

智能体（Agent）：做出决策的实体。

环境（Environment）：智能体交互的外部世界。

状态（State）：环境在某个时刻的描述。

动作（Action）：智能体可执行的操作。

奖励（Reward）：环境对智能体动作的反馈信号，是一个数值，指导学习的方向。

策略（Policy）：从状态到动作的映射，决定了智能体在某个状态下应该做什么。

值函数（Value Function）：评估某个状态或状态下采取某个动作的长期期望回报。

Q-learning，一种无模型的强化学习算法，通过学习动作值函数（Q函数）来找到最优策略。

深度强化学习（Deep Reinforcement Learning），用深度神经网络来近似策略或值函数，让强化学习能处理高维复杂问题（比如DQN、AlphaGo）。

蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS），一种通过模拟搜索来寻找最优决策的算法，AlphaGo中就用到了这个技术。

07 生成模型

生成对抗网络（Generative Adversarial Network，GAN），由生成器和判别器两个网络组成。生成器负责“造假”，判别器负责“打假”，两者互相博弈，最终生成器能造出以假乱真的数据。

变分自编码器（Variational Autoencoder，VAE），基于自编码器的生成模型，学习数据的潜在分布，可以生成新样本。

扩散模型（Diffusion Model），通过先向数据逐步添加噪声（前向过程），再学习逆向去噪过程来生成数据。这是目前最火的图像生成技术，Stable Diffusion、DALL·E 2都是它的杰作。

自回归模型（Autoregressive Model），逐个生成序列元素，每一步都依赖之前已经生成的内容。GPT系列模型就是典型的自回归模型。

08 框架与工具

TensorFlow：Google开发的开源深度学习框架，静态计算图。工业界应用很广。

PyTorch：Facebook开发的开源深度学习框架，动态计算图，调试更友好，学界和研究圈最爱。

Keras：高级神经网络API，用户可以快速搭建和实验模型。

JAX：Google开发的数值计算库，支持自动微分和GPU/TPU加速，在科研领域越来越流行。

Hugging Face Transformers：提供海量预训练模型（BERT、GPT等）的库，大大简化了NLP项目的开发。

LangChain：用于构建基于大语言模型应用的框架，提供链式调用、记忆、工具集成等功能。

Scikit-learn：Python经典的机器学习库，包含各种传统ML算法和工具。

Pandas / NumPy：Python数据处理和数值计算的基础库，几乎人人都在用。

OpenCV：计算机视觉的开源库，提供大量图像处理、视频分析的功能。

CUDA：NVIDIA的并行计算平台，允许利用GPU加速深度学习计算，是算力基础。

09 其他重要术语

图神经网络（Graph Neural Network，GNN），专门处理图结构数据（比如社交网络、分子结构）的神经网络。

迁移学习（Transfer Learning），把在一个任务上学到的知识迁移到另一个相关任务，从而减少对新任务数据的需求。

多模态（Multimodal），处理多种类型数据（如文本、图像、音频）的AI任务，比如文生图、视频理解。

联邦学习（Federated Learning），在保护数据隐私的前提下进行分布式模型训练，数据不离开本地。

可解释AI（Explainable AI，XAI），目标是让AI模型的决策过程透明、可理解，增强人们对AI的信任。

对抗样本（Adversarial Example），对输入数据故意添加微小且不易察觉的扰动，导致模型错误分类。这暴露了模型的脆弱性。

元学习（Meta Learning），学会如何学习。让模型能够在接触少量新任务后快速适应。

零样本学习（Zero-shot Learning），模型能识别训练中从未见过的类别，依靠语义描述来推断。

少样本学习（Few-shot Learning），仅用极少量样本就能完成新任务的学习。

知识蒸馏（Knowledge Distillation），把大模型（教师）学到的知识“蒸馏”到一个小模型（学生）中，实现模型压缩和加速。

模型量化（Quantization），降低模型参数的精度，比如从32位浮点转为8位整数，能有效减少内存占用并加速推理。

剪枝（Pruning），移除神经网络中不重要的连接或神经元，达到压缩模型的效果。

这份术语表覆盖了AI领域的核心概念，但技术发展日新月异，新的名词肯定会不断涌现。保持学习，跟上节奏，才是关键。