供需协同高质量数据集建设实战:黄宇凯权威解析

2026-06-23阅读 0热度 0
人工智能

在2026人民数据大会上,海天瑞声CTO黄宇凯明确指出:高质量数据集正成为决定大模型性能上限的核心变量。这一看似技术性的论断,实际上揭示了人工智能产业下一阶段的关键逻辑——数据不仅要追求数量,更要聚焦质量。

黄宇凯:推动供需协同 建设高质量数据集

海天瑞声CTO黄宇凯。人民网记者 翁奇羽摄

黄宇凯将高质量数据集的特征总结为六个维度:规模庞大、质量过硬、安全可靠、立场正确、效果显著、应用广泛。这六个词并非简单的修饰,而是直接影响模型训练的实际效能。可以说,数据集的水准在很大程度上决定了模型能力的上限。

那么,如何构建高质量数据集?黄宇凯提出的原则相当务实:“总体规划、分步实施,先易后难、先简后繁。”这听起来像是工程方法论,但其背后有深刻的现实依据——数据涉及企业内部多个部门、多个系统的协同运作,缺乏顶层设计容易导致各自为政、重复建设。因此,首要任务不是埋头生产数据,而是先把蓝图绘制清晰。

围绕建设路径,黄宇凯特别强调供需两侧的协同发力。供给侧应从数据产品和数据服务的角度出发,加大在数据生产、处理、供给环节的投入;需求侧则应聚焦AI赋能行业落地的实际场景,以应用需求牵引数据建设、释放数据价值。两者之间并非天然匹配,需要数据技术、数据服务和数据生态作为桥梁来打通。

谈到这个桥梁,就绕不开可信数据空间。按照国家数据局的推进方向,可信数据空间可以从个人、企业、行业、城市、跨境等多个层面展开。每种空间面向的应用场景不同,涉及的数据提供方、使用方、服务方、运营方和监管方也需要多方协同参与。这本质上是一套制度化的供需匹配机制。

黄宇凯还分享了几个具体的落地案例。在文旅行业,海天瑞声正推动多个景区的多模态伴游助手应用——将景区内的文本、图片、视频等数据整合起来,结合具体场景构建高质量数据集,使导览服务从被动响应升级为主动服务,从通用答案转向深度体验。在数字人领域,直播带货、品牌宣传、动画游戏、文化推广等不同场景,也催生了文本、声音、视频等多模态定制化数据需求。

事实上,海天瑞声自2005年成立以来,长期深耕高质量数据集的能力建设与产品服务,至今已累计形成1800多个数据集,服务全球超过1200家客户。这一数字背后,是工程化、规模化的数据生产经验的沉淀。

一个值得关注的判断是:结合人才资源、数据资源以及工程化、智能化的平台能力,持续构建高质量数据集,将让AI更高效地赋能各行各业。这不仅是技术命题,更是一个生态问题——只有供需两端真正贯通,数据才能从“原料”转变为“燃料”。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策