最新开源：MiniCPM5-1B端侧SOTA模型与SMOL翻译数据集

2026-06-20阅读 0热度 0

Mini

公共数据集

本文精选了一批高质量的开源数据集与实战教程，覆盖机器翻译、计算机视觉、医疗AI、环境监测等领域。每项资源均注明来源与核心参数，便于快速评估是否适配你的项目需求。

1. SMOL 多语言翻译平行数据集

Google 于 2025 年发布的专业翻译数据集，专为解决标注资源匮乏的小语种及地方语言翻译难题设计。收录阿姆哈拉语、斯瓦希里语、阿法尔语等 221 种语料，覆盖广泛的语言对。尤其值得关注的是，部分语言额外提供了医疗领域的垂直数据与事实性标注，对低资源场景下的翻译研究具有显著实用价值。

2. DeepCrack 基础设施裂缝检测数据集

源自武汉大学计算机视觉与遥感实验室，是面向基础设施裂缝检测的基准数据集。包含 RGB 裂缝图像与对应的像素级二值标注掩码，所有标注均由人工逐像素完成，非常适合监督式语义分割任务。数据集已按标准结构划分为训练集与测试集，每张图像均附带同名 mask 文件。

3. chi-bench 医疗智能体基准评测数据集

由 Acta va AI 于 2026 年发布，专为医疗智能体评测打造。构建了一个高保真的医疗业务仿真环境，集成 20 个通过 MCP（Model Context Protocol）开放接口的医疗应用系统，并附带包含 1,279 份医疗运营文档的知识库。评测场景覆盖美国医疗体系中的预授权管理、医保/保险方利用率管理以及人群护理管理三大核心领域。

4. World Air Pollution and AQI 全球空气质量与 AQI 数据集

面向研究与数据分析的全球空气质量数据集，收录 2014 至 2025 年间 331,920 条月度城市级观测记录。覆盖全球 5 大洲、24 个国家，包括中国、美国、英国、法国、德国、日本、韩国等。提供 24 个特征维度，涵盖空气污染物浓度、空气质量指数、气象变量以及社会环境指标。

公共教程

1. HiDream-O1-Image 图像生成系统

HiDream.ai 团队于 2026 年推出的原生统一图像生成基础模型。基于像素级统一 Transformer（UiT）架构构建——与传统模型不同，它不依赖外部 VAE 或分离的文本编码器，而是在单一共享的 Token 空间中原生编码像素与文本。

2. X2SAM：统一图像与视频任意分割模型

由中山大学、鹏城实验室与美团团队于 2026 年发布，面向图像与视频的统一分割场景。官方实现同时支持图像聊天、视频聊天、通用分割、指代表达分割、推理分割、GCG 分割、交互分割和视觉 grounding 分割，所有能力通过同一个 Web Demo 暴露，使用体验直观高效。

3. LocateAnything-3B：视觉语言定位模型

NVIDIA 于 2026 年发布，是 Eagle VLM 系列中的 3B 参数视觉语言定位模型。覆盖图像与视频中的开放目标检测、指代表达定位、OCR 文本定位、GUI 元素定位及 pointing 等任务。核心亮点在于 Parallel Box Decoding——将完整边界框坐标作为结构化块并行预测，而非逐 token 自回归生成坐标，在保持几何一致性的同时显著提升定位吞吐。

4. MiniCPM5-1B：面向端侧的高效 1B 大语言模型

OpenBMB 团队发布的 MiniCPM5 系列首个模型，专为端侧部署与资源受限场景设计。采用 1B 参数稠密 Transformer 架构，在同尺寸开源模型中达到 SOTA 水平，在 Agentic 工具调用、代码生成和高难度推理任务上表现尤为突出。

5. IBM Granite 4.1 8B：支持对话、编码、RAG 及工具调用

IBM 于 2026 年推出的新一代开源基础模型系列，涵盖 3B、8B 和 30B 三种规模的密集解码器架构。其中 Granite 4.1 8B 是高效版本，在保持轻量级参数规模的同时，具备企业级应用所需的卓越性能。原生支持多语言能力、广泛的编码任务、检索增强生成（RAG）、工具使用以及结构化 JSON 输出，落地场景覆盖面广。