NLP中的词向量表示(如Word2Vec、GloVe等)
NLP词向量技术:语义的数学化基石
词向量表示是自然语言处理的核心基础技术,其本质是将离散的词汇映射为连续的高维空间向量。这种数学化表达的关键优势在于,它使得“国王”与“君主”的语义相似性,或“快速”与“奔跑”的语法关联性,能够通过向量间的余弦相似度或欧氏距离进行精确度量。这为后续的机器学习模型提供了结构化的、可计算的语义输入。
目前,主流的词向量生成方法主要基于分布假说,即词语的语义由其上下文决定。以下我们将剖析两种具有代表性的技术路径。
1. Word2Vec:基于局部上下文的预测模型
Word2Vec由Google于2013年提出,因其高效与实用性,迅速成为词向量技术的工业标准。其核心目标是通过学习词汇的局部上下文分布,将语义相似的词映射到向量空间中相近的位置。
该框架主要包含两种高效的神经网络模型:
CBOW模型采用上下文预测中心词的策略。模型接收一个目标词周围窗口内的所有上下文词向量作为输入,通过训练来预测中间缺失的中心词。这种方法擅长利用聚合的上下文信息进行高效学习,尤其适用于大规模语料库的快速训练。
而Skip-gram模型则采用相反的思路,通过给定的中心词来预测其周围可能出现的上下文词。该模型能从单个词生成多个训练样本,对于处理低频词或捕捉更细腻的语法模式(如动词时态变化)具有优势,尽管其训练计算量相对更大。
为提升训练效率,Word2Vec引入了层次Softmax与负采样等关键技术。这些优化手段大幅降低了模型更新时的计算复杂度,使得在超大规模语料上训练高质量词向量成为可能。
2. GloVe:融合全局共现统计的模型
GloVe模型在Word2Vec的基础上,引入了全局语料统计信息,实现了局部上下文与全局共现频率的融合。它并非基于局部窗口的预测,而是直接对语料库中词与词的共现概率进行建模。
其算法首先构建一个词共现矩阵,该矩阵精确记录了整个语料中任意两个词在一定窗口内共同出现的次数。随后,模型通过矩阵分解技术,学习能够重构这些共现概率的稠密词向量。
这种全局视角带来了独特的优势。例如,它不仅能捕捉到“冰”与“冷”的局部共现关系,还能通过全局统计发现“冰”与“蒸汽”均与“水”的物态相关,从而揭示更深层的语义场结构。在许多需要衡量词语之间系统化关系的任务中,如词类比推理,GloVe因其扎实的全局统计基础而常表现出色。
总结
Word2Vec与GloVe奠定了现代NLP词向量技术的基础范式。它们将语言符号转化为稠密、低维的分布式表示,使得语义关系变得可计算、可优化。这项技术已成为文本分类、信息检索、命名实体识别及预训练语言模型等众多下游任务的标配前置组件。当前,尽管基于Transformer的上下文动态嵌入已成为主流,但静态词向量所体现的分布语义学思想,依然是理解NLP模型如何“感知”语言的根本出发点。