ChatGPT之后：哈工大张民详解NLP领域12大核心挑战与前沿趋势

2026-05-15阅读 0热度 0

哈工大张民

ChatGPT在产业界掀起商业化与资本狂潮的同时，也给自然语言处理（NLP）研究界抛出了一系列深刻的问题。NLP正重新成为最热的研究领域之一，但也面临着以ChatGPT为代表的大规模预训练语言模型带来的冲击。一个核心议题是：ChatGPT将如何重塑NLP技术？NLP的下一步又该怎么走？

在近期一场行业大会上，哈尔滨工业大学（深圳）的张民教授以《语言智能与机器翻译》为题，分享了他的思考。张民教授长期深耕于自然语言处理与人工智能领域，他的观点为我们理解这场技术变革提供了清晰的脉络。

ChatGPT：NLP技术的一大步，打开了通用AI的大门

在深入探讨之前，有必要先明确几个基本判断。

首先，必须高度认可并积极拥抱以ChatGPT为代表的、具有跨时代意义的新一代NLP/AI技术，这关乎跟踪而非盲目跟风。

其次，跟踪之后的关键在于创新。许多人担忧在大模型时代，传统的NLP研究是否失去了价值。事实恰恰相反，我们需要解决的问题不是变少了，而是变得更多、更关键了。

不妨想想人类是如何学习语言的。一个三岁孩童已经具备相当强的语言能力，但人脑中仅有约5%的神经元参与语言活动。孩子是如何做到举一反三的？关键在于人类的学习是真正的“理解”，是自顶向下与自底向上相结合的过程，包含了演绎、归纳、推理和联想。而目前的ChatGPT，本质上仍是自底向上的学习模式。因此，未来的语言模型，绝不会止步于ChatGPT当前的样子。

那么，未来五到十年，甚至二十年，以ChatGPT为起点的NLP需要攻克哪些难题？要回答这个问题，得先厘清ChatGPT是什么，以及它能给NLP领域带来何种启发。

第一，ChatGPT的目标是让机器像人一样对话。自然语言是人类交流最自然、最重要的媒介，是描述知识与传承文化的工具。正因如此，ChatGPT才能迅速被大众接受——从某种意义上说，它是被人类“投票”投出来的火热。

第二，其本质是一个大规模预训练语言模型。它是一个统一且极简的模型架构。

第三，也是至关重要的一点：ChatGPT虽然处理的是NLP问题，但它是一个融合了技术、数据、算力与工程架构的复杂系统。必须用复杂系统的观念来看待它。

常有人问，ChatGPT的成功经验是什么？通俗地讲，自然语言处理主要干三件事：让机器听懂人话（理解）、讲人话（生成）、干人事（应用）。ChatGPT的惊艳之处也在于此：其一，它展现出极强的语言理解与生成能力，能理解意图并流畅表达；其二，它能有效过滤伦理、道德等方面的不当内容，并学会拒绝回答；其三，它成功整合了表示学习、注意力机制以及“人类意志对齐”等关键技术。没有这些，就不会有大模型，更不会有ChatGPT。

这里提到的“学习人类意志”听起来很高深，实则不然。它指的是通过算法调整模型参数，让机器更准确地理解人类的意图，并知道如何更好地完成任务。

那么，ChatGPT的理论基础何在？归根结底，是从海量语料中学习。语料中蕴含多少知识，ChatGPT最多就能掌握多少知识。从这个角度看，它也是一个庞大的知识工程。因此，语料库语言学、认知语言学和计算语言学构成了其语言学理论基础。如果你相信语言能够表达知识，那么ChatGPT就能学会它。

所以，一个公允的评价是：ChatGPT是NLP技术向前迈出的一大步，同时也为通用人工智能（AGI）打开了一扇门。

ChatGPT背后的语言模型

只要具备基本的语言知识就知道，语言模型涵盖词、短语、句法、语义、篇章等多个层面。从表示方法看，它包括产生式、逻辑、谓词、框架等；从知识表述角度看，则涉及规则、统计和神经网络等方法。

抽象来说，语言模型是计算机表示和处理自然语言的数学模型。它是一个纯粹、统一、抽象的形式化系统。自然语言一旦经过语言模型的描述，就能被计算机处理，因此语言模型对NLP至关重要。

ChatGPT采用的语言模型是什么？其实它的核心思想早在几十年前就已出现，即语音识别领域常用的N-gram模型。ChatGPT是一种基于N-gram的生成式语言模型。其原理很简单：在一个句子中，根据前N个词来预测下一个词的概率。公式极其简洁，ChatGPT所做的核心工作，就是学习海量的神经网络参数，来完成这个预测任务。例如，给定“Where are we”，模型会计算所有可能下一个词的概率，并预测“going”出现的概率最高。

问题来了：为什么只做“预测下一个词”这一件事，就能实现如此复杂的对话和创作？这听起来有些不可思议。这就引出了一个经典的“无限猴子定理”：如果给一只猴子无限长的时间在键盘上随机敲打，它最终能打出莎士比亚的全部著作。从数学概率上讲，这确实可能。

ChatGPT就好比那只猴子，将词语进行组合。但它的优势在于：猴子需要无限时间且毫无方向，而ChatGPT拥有强大的“预测下一个词”的能力。只要给定上文，它就能进行精准预测。当ChatGPT撰写一篇论文时，看似一气呵成，实则其语言模型中已经隐式编码了文章的结构与布局。它最擅长的正是写作与“编故事”，能够娓娓道来。

深入其原理，主要包含三大支柱：基础模型、指令学习与强化学习。基础模型赋予了ChatGPT强大的能力储备，好比拥有了“力气”；指令学习则告诉模型该往哪个方向使力，明确“要干什么”；强化学习（特别是基于人类反馈的强化学习）则是为了让模型“干得更好”，使其输出更符合人类的偏好与价值观。有观点认为ChatGPT过于“讨好”人类，这背后其实是训练数据、奖励模型的设计以及伦理约束共同作用的结果，导致其行为模式高度拟人化。

从技术核心看，关键有两点：一是强大的基础模型，二是针对基础模型进行的“人类意志对齐”微调。这种微调的效果非常显著。从交互体验的角度评估，经过精妙微调的130亿参数模型，其性能甚至可以媲美未经微调的1750亿参数模型，提升幅度可达十倍。当然，若从知识容量角度看，130亿参数的模型在知识丰富度上依然存在局限，巧言令色也难掩其知识深度的不足。

大模型时代，NLP该怎么做？

客观来看，当前ChatGPT“不能干”或“干错”的事情，远比它能干的事情多。但必须坚信一点：这项技术刚刚崭露头角，许多现有问题有望在短期内得到解决。

同时，也必须认识到ChatGPT存在明显的天花板。其根本局限在于模型能力本身。例如，它处理“1+1=？”这类问题时，并非调用计算器，而是基于模型预测“2”作为下一个词的概率最高。如果为其集成计算能力，所有四则运算问题都将迎刃而解。

可以说，ChatGPT的天花板高度目前是有限的，但在触及天花板之前，我们仍能享受其带来的巨大技术红利。科学发展从来都是波浪式前进的。

再谈谈ChatGPT与语言智能及机器翻译。机器翻译是最有可能被ChatGPT碘伏的领域之一。人类翻译本质上是理解与再生成的过程，而ChatGPT恰恰在语言理解和生成方面能力突出。当前主流的机器翻译模型严重依赖双语平行数据，将翻译视为一种“映射”，而非真正的“理解与生成”。这导致了一系列棘手问题：双语数据稀缺、准确性不足、篇章连贯性差、指代消解困难、低资源领域与语种处理能力弱、对噪声敏感等。从理论上讲，大模型为解决这些问题提供了全新的、更强大的路径。

最后，回答一个学术界普遍关心的问题：在大模型时代，NLP研究该如何开展？这里梳理了十二个值得深入探索的方向，其中任何一个取得突破，都可能具有跨时代的意义。

新一代语言模型： 当前如Masked LM、GLM等模型虽具强大建模能力，但其描述能力（即表达复杂语言结构的能力）理论上仍属有限。下一代语言模型应具备更强的可计算性与描述能力，而不仅仅是生成能力强。
大模型时代的自然语言深度理解： 未来，几乎所有NLP任务都难以绕开大模型。结合连接主义与符号主义的方法，可能是一个重要趋势。
可信NLP： 确保模型输出结果可信、可验证。
安全可靠的NLP： 涵盖价值观、道德、整治、隐私、伦理等层面的安全性。
具有复杂推理能力与可解释性的NLP： 同样需要连接主义与符号主义方法的结合。
知识的建模、获取与使用： 探索如何将结构化知识直接融入模型，或将其作为模型的功能插件。
具有增量学习、持续学习、人在回路能力的NLP系统。
高效的小模型、模型编辑、领域自适应、面向特定任务的模型， 以及支持人类快速干预的技术。
人类意志的学习与对齐： 实现物理世界、人类系统与信息智能社会的协同对齐。
以NLP为引领的多模态大模型： 自然语言模态更偏向认知，而视觉等模态更偏向感知。多模态大模型的发展，应以NLP为基础或引领。
NLP大工程与复杂系统理念： 统筹算法模型、算力、数据与系统工程。
构建开源、开放、共享的生态， 促进产学研用资政的协同发展。

总而言之，我们首先要感谢表示学习技术，它让NLP从离散数学模型迈入连续数学模型时代，获得了强大的数学工具支持。其次，注意力机制与人类对齐机制至关重要，前者有效拟合了语言上下文，后者让机器更好地服务于人。最后，“大”是质变的关键——模型大、参数多、数据海量，由此涌现出各种能力。但这一切仅仅是开始，成就虽多，问题更多，等待探索的空间极为广阔。下一代模型的突破将加速我们迈向通用人工智能的进程，同时也期待下一代计算架构能解决算力瓶颈。这需要学术界、产业界、资本与政策制定者共同努力。

ChatGPT之后：哈工大张民详解NLP领域12大核心挑战与前沿趋势

ChatGPT：NLP技术的一大步，打开了通用AI的大门

ChatGPT背后的语言模型

大模型时代，NLP该怎么做？

相关阅读

最新教程

最新资讯