最新开源:MiniCPM5-1B端侧SOTA模型与SMOL翻译数据集

2026-06-20阅读 0热度 0
Mini

公共数据集

本文精选了一批高质量的开源数据集与实战教程,覆盖机器翻译、计算机视觉、医疗AI、环境监测等领域。每项资源均注明来源与核心参数,便于快速评估是否适配你的项目需求。

1. SMOL 多语言翻译平行数据集

Google 于 2025 年发布的专业翻译数据集,专为解决标注资源匮乏的小语种及地方语言翻译难题设计。收录阿姆哈拉语、斯瓦希里语、阿法尔语等 221 种语料,覆盖广泛的语言对。尤其值得关注的是,部分语言额外提供了医疗领域的垂直数据与事实性标注,对低资源场景下的翻译研究具有显著实用价值。

2. DeepCrack 基础设施裂缝检测数据集

源自武汉大学计算机视觉与遥感实验室,是面向基础设施裂缝检测的基准数据集。包含 RGB 裂缝图像与对应的像素级二值标注掩码,所有标注均由人工逐像素完成,非常适合监督式语义分割任务。数据集已按标准结构划分为训练集与测试集,每张图像均附带同名 mask 文件。

3. chi-bench 医疗智能体基准评测数据集

由 Acta va AI 于 2026 年发布,专为医疗智能体评测打造。构建了一个高保真的医疗业务仿真环境,集成 20 个通过 MCP(Model Context Protocol)开放接口的医疗应用系统,并附带包含 1,279 份医疗运营文档的知识库。评测场景覆盖美国医疗体系中的预授权管理、医保/保险方利用率管理以及人群护理管理三大核心领域。

4. World Air Pollution and AQI 全球空气质量与 AQI 数据集

面向研究与数据分析的全球空气质量数据集,收录 2014 至 2025 年间 331,920 条月度城市级观测记录。覆盖全球 5 大洲、24 个国家,包括中国、美国、英国、法国、德国、日本、韩国等。提供 24 个特征维度,涵盖空气污染物浓度、空气质量指数、气象变量以及社会环境指标。

公共教程

1. HiDream-O1-Image 图像生成系统

HiDream.ai 团队于 2026 年推出的原生统一图像生成基础模型。基于像素级统一 Transformer(UiT)架构构建——与传统模型不同,它不依赖外部 VAE 或分离的文本编码器,而是在单一共享的 Token 空间中原生编码像素与文本。

2. X2SAM:统一图像与视频任意分割模型

由中山大学、鹏城实验室与美团团队于 2026 年发布,面向图像与视频的统一分割场景。官方实现同时支持图像聊天、视频聊天、通用分割、指代表达分割、推理分割、GCG 分割、交互分割和视觉 grounding 分割,所有能力通过同一个 Web Demo 暴露,使用体验直观高效。

3. LocateAnything-3B:视觉语言定位模型

NVIDIA 于 2026 年发布,是 Eagle VLM 系列中的 3B 参数视觉语言定位模型。覆盖图像与视频中的开放目标检测、指代表达定位、OCR 文本定位、GUI 元素定位及 pointing 等任务。核心亮点在于 Parallel Box Decoding——将完整边界框坐标作为结构化块并行预测,而非逐 token 自回归生成坐标,在保持几何一致性的同时显著提升定位吞吐。

4. MiniCPM5-1B:面向端侧的高效 1B 大语言模型

OpenBMB 团队发布的 MiniCPM5 系列首个模型,专为端侧部署与资源受限场景设计。采用 1B 参数稠密 Transformer 架构,在同尺寸开源模型中达到 SOTA 水平,在 Agentic 工具调用、代码生成和高难度推理任务上表现尤为突出。

5. IBM Granite 4.1 8B:支持对话、编码、RAG 及工具调用

IBM 于 2026 年推出的新一代开源基础模型系列,涵盖 3B、8B 和 30B 三种规模的密集解码器架构。其中 Granite 4.1 8B 是高效版本,在保持轻量级参数规模的同时,具备企业级应用所需的卓越性能。原生支持多语言能力、广泛的编码任务、检索增强生成(RAG)、工具使用以及结构化 JSON 输出,落地场景覆盖面广。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策