语言模型是文法型还是基于统计的?
语言模型的两大技术范式
在语言模型的发展历程中,两种核心范式定义了不同的技术路径:基于规则的符号主义方法,以及占据主导地位的基于统计的机器学习方法。
基于规则的文法型语言模型
这类模型代表了早期人工智能的符号主义思路,其核心依赖于语言学专家手工构建的、形式化的语法与句法规则库。这套体系旨在将人类对语言结构的认知精确编码,让机器进行逻辑推演。然而,自然语言的复杂性——包括歧义性、动态演变和大量例外情况——使得纯规则系统难以覆盖真实语料的全貌,其知识获取瓶颈与扩展性成本限制了实际应用。
基于统计的语言模型
为克服规则系统的局限性,基于统计的模型实现了范式转换。其核心思想从“追求语法正确性”转向“评估序列可能性”,即通过概率计算来量化一个语言序列在真实世界中出现的合理程度。
这类模型本质上是利用大规模语料进行参数估计,通过数据驱动的方式捕捉语言的分布规律。经典的技术实现包括N-gram语言模型、隐马尔可夫模型(HMM)以及最大熵模型等。它们分别从局部依赖、状态序列和特征分类等角度对语言进行概率建模,共同构成了统计自然语言处理的基石。
掌握这两种范式的核心理念与技术变迁,是理解当前语言智能技术源流与演进的关键。