2025阿里云DataWorks Data Agent大模型热度分析排行榜
### 2.2 自动化 ETL 数据清洗
基于探查结果,Data Agent 会自动生成高效的 SQL 代码,批量执行清洗操作。比如,将 `downloads` 和 `likes` 字段转换为数值型;把缺失的 `pipeline_tag` 统一标记为 `unknown`;规范化 `gated`(访问限制)字段的分类;以及自动去除同一天同一个模型的重复记录等等。
最终,Data Agent 会输出三张标准化的清洗表,为后续的多维分析打下扎实基础。
### 2.3 数据质量检查
数据质量是数据资产化的前提。Data Agent 基于清洗后的表结构,能自主生成一套完整的数据质量监控规则,并执行校验。例如:
* 完整性校验:模型 ID、下载量、点赞数不允许为空;
* 值域合规性:指标数值必须大于等于 0;
* 一致性校验:检查 snapshot_date 是否支持趋势分析,看看是否存在单日重复记录。
值得一提的是,在这一步中,Data Agent 还额外提供了一项专业洞察:它在报告里明确指出 `license` 字段存在大比例缺失,不建议将其作为核心维度进行分析。这种主动发现数据缺陷的能力,确实能有效规避低质量数据带来的决策偏差。
### 2.4 自动化 DAG 工作流编排
将清洗 → 检查 → 生成排行榜 → 输出结果表这条完整链条,固化为一个可调度的任务链,最终输出 ADS 结果表,供后续的 ChatBI 调用。
## 三、DataWorks ChatBI:零代码交互式分析
对于业务分析人员和管理层来说,他们不一定需要掌握 SQL。通过自然语言,就能直接问数据、看图表、生成分析结论。
举个例子:在 DataWorks ChatBI 后台,系统会自动解析用户的查询意图,自动关联清洗后的结果表,生成一个包含大盘指标、排行榜单、历史趋势、作者组织分布及任务类型分析的多维可视化报告。更贴心的是,它还会附带大模型自动生成的行业洞察与行动建议。比如,它会告诉你:Qwen 系列模型近期热度极高,建议重点关注;Sentence-Transformers 生态非常活跃等等。
从枯燥的 CSV 文件,到一份“有图、有真相、有深度结论”的分析报告,全程只需要几句大白话。
## 四、NVIDIA NeMo Curator:赋能大规模高质量数据处理
在模型开发的全链路中,训练数据的质量直接决定了模型的最终性能。NVIDIA NeMo Curator 这个工具,专攻 PB 级大规模数据的预处理。它能够针对文本、图像、音视频等多模态数据,提供一整套可扩展的数据处理流水线:
* **更高准确率**:用更少的数据和训练算力,就能实现更高的准确率。
* **更快处理速度**:借助 RAPIDS 实现 GPU 加速。
* **可扩展性**:通过跨多个节点扩展,可处理超过 100 PB 的数据。
* **分类模型**:采用 SOTA 分类模型,以微服务形式保障数据的安全性、内容合规性和多样性。
NVIDIA NeMo Curator 专精于训练数据的优化,而 DataWorks Data Agent 则擅长数据的理解与高效利用。两者配合,可以说是相得益彰。
## 五、DataWorks Data Agent,为开发者而生
Data Agent 是 DataWorks 平台内的一站式 AI 智能体,它包含了 Agent 智能体、代码编程助手、ChatBI 以及快捷 AI 操作等核心能力。依托强大的 AI 推理与自然语言交互技术,用户只需要通过对话,就能自动化完成数据集成、数据开发与运维、质量治理、数据分析等全周期任务。新版本已经完成了从“功能模块”到“智能工作流中枢”的全面进化。它打破了传统菜单式操作的局限,基于开发者和业务人员的真实使用习惯,重构为四种独立且无缝切换的交互模式:
* **Chat UI 模式**:零门槛的自然语言对话面板,开箱即用,让业务洞察触手可及。
* **CLI 模式**:Web 终端直连,专为极客打造,敲命令、跑任务,效率拉满。
* **远程控制模式**:扫码即连,手机端实时同步会话与执行进度,实现类似 Apple Continuity 的无缝接力,随时随地都能掌控全局。
* **IM Channel 模式**:深度打通钉钉、飞书与企业微信。无需切换后台,在熟悉的聊天窗口中,就能直接调用 Agent 能力。









