供需协同高质量数据集建设实战：黄宇凯权威解析

2026-06-23阅读 0热度 0

人工智能

在2026人民数据大会上，海天瑞声CTO黄宇凯明确指出：高质量数据集正成为决定大模型性能上限的核心变量。这一看似技术性的论断，实际上揭示了人工智能产业下一阶段的关键逻辑——数据不仅要追求数量，更要聚焦质量。

海天瑞声CTO黄宇凯。人民网记者翁奇羽摄

黄宇凯将高质量数据集的特征总结为六个维度：规模庞大、质量过硬、安全可靠、立场正确、效果显著、应用广泛。这六个词并非简单的修饰，而是直接影响模型训练的实际效能。可以说，数据集的水准在很大程度上决定了模型能力的上限。

那么，如何构建高质量数据集？黄宇凯提出的原则相当务实：“总体规划、分步实施，先易后难、先简后繁。”这听起来像是工程方法论，但其背后有深刻的现实依据——数据涉及企业内部多个部门、多个系统的协同运作，缺乏顶层设计容易导致各自为政、重复建设。因此，首要任务不是埋头生产数据，而是先把蓝图绘制清晰。

围绕建设路径，黄宇凯特别强调供需两侧的协同发力。供给侧应从数据产品和数据服务的角度出发，加大在数据生产、处理、供给环节的投入；需求侧则应聚焦AI赋能行业落地的实际场景，以应用需求牵引数据建设、释放数据价值。两者之间并非天然匹配，需要数据技术、数据服务和数据生态作为桥梁来打通。

谈到这个桥梁，就绕不开可信数据空间。按照国家数据局的推进方向，可信数据空间可以从个人、企业、行业、城市、跨境等多个层面展开。每种空间面向的应用场景不同，涉及的数据提供方、使用方、服务方、运营方和监管方也需要多方协同参与。这本质上是一套制度化的供需匹配机制。

黄宇凯还分享了几个具体的落地案例。在文旅行业，海天瑞声正推动多个景区的多模态伴游助手应用——将景区内的文本、图片、视频等数据整合起来，结合具体场景构建高质量数据集，使导览服务从被动响应升级为主动服务，从通用答案转向深度体验。在数字人领域，直播带货、品牌宣传、动画游戏、文化推广等不同场景，也催生了文本、声音、视频等多模态定制化数据需求。

事实上，海天瑞声自2005年成立以来，长期深耕高质量数据集的能力建设与产品服务，至今已累计形成1800多个数据集，服务全球超过1200家客户。这一数字背后，是工程化、规模化的数据生产经验的沉淀。

一个值得关注的判断是：结合人才资源、数据资源以及工程化、智能化的平台能力，持续构建高质量数据集，将让AI更高效地赋能各行各业。这不仅是技术命题，更是一个生态问题——只有供需两端真正贯通，数据才能从“原料”转变为“燃料”。

供需协同高质量数据集建设实战：黄宇凯权威解析

相关阅读

最新教程

最新资讯