MiniCPM-0-4.5全双工全模态模型与Pan-Cancer三种单细胞转录数据集
本周公共资源速递
本期资源清单干货满满,直接盘点值得收藏与部署的工具与数据。
3 个公共数据集:
- Adverse Drug Reaction 模拟药物不良反应数据集
- Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集
- Drone Sound Audio Detection 无人机音频检测数据集
12 个公共教程:
- ACE-Step 1.5:音乐生成 Demo
- FoundationMotion 视频问答系统
- MOSS-TTS:高保真多场景语音生成模型
- Qwen3-ASR-1.7B:新一代语音识别系统
- Z-lmage:阿里 60 亿参数开源文生图模型
- GLM-OCR 轻量级多模态 OCR 识别系统
- 使用 vLLM-Omni 部署 Qwen-Image-Edit
- 使用 vLLM-Omni 部署 Qwen-Image-2512
- VibeVoice-ASR:多功能端到端语音识别 Demo
- vLLM+Open WebUI 部署 Qwen3-Coder-Next
- Qwen3-TTS:高质量可控多语言语音合成 Demo
- MiniCPM-o-4_5:面壁智能开源的全双工全模态模型
公共数据集
1. Adverse Drug Reaction 模拟药物不良反应数据集
该数据集专为生成模拟药物不良反应报告而设计,旨在支撑药物安全监测的研究与算法开发。个案安全报告基于真实世界药物警戒系统的启发进行人工合成。其核心特点在于强调严重不良反应的稀有性与数据不平衡分布——大多数报告仅涉及轻微反应,而严重甚至致命结果占比极低。这恰好再现了上市后监控中普遍存在的报告不足及严重性分布偏差等现实问题。
2. Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集
该数据集收录了7,930个单细胞的转录组表达数据,覆盖健康免疫基线、液体肿瘤与实体肿瘤微环境三种生物学状态。旨在构建跨队列整合的单细胞分析基准,适用于算法性能评估与方法学对比、多队列批次效应校正、免疫耗竭状态分析,以及跨肿瘤类型生物标志物挖掘等应用场景。
3. Drone Sound Audio Detection 无人机音频检测数据集
该数据集包含“未知”与“无人机”两类音频录音,专为真实环境中的无人机声音检测设计了一个二元音频分类任务。音频文件均以标准格式提供,非常适合用于Mel频谱图提取、MFCC特征提取、短时傅里叶变换及原始波形深度学习模型等预处理技术。
公共教程
1. ACE-Step 1.5:音乐生成 Demo
ACE-Step 1.5是由ACE Studio与StepFun联合开源的音乐生成基础模型,旨在突破开源音乐生成模型的能力上限。关键创新在于采用双阶段生成架构,通过融合扩散变换器与语言模型协同工作,可实现高质量、长时长的音乐内容生成。
2. FoundationMotion 视频问答系统
由英伟达与麻省理工学院联合推出,本质是基于Qwen2.5-VL微调而成的视频理解与问答系统。核心目标在于实现对视频中物体空间运动的精准理解与推理。通过融合视觉语言预训练技术,可对上传视频进行智能分析并回答相关问题。
3. MOSS-TTS:高保真多场景语音生成模型
MOSS-TTS由MOSI.AI与OpenMOSS团队联合发布,是一套开源语音生成模型系列。设计思路是将语音生成工作流拆解为五个可独立或组合使用的生产级模型:核心的MOSS-TTS基础模型、MOSS-TTSD多语言对话模型、MOSS-VoiceGenerator音色设计模型、MOSS-SoundEffect音效生成模型以及MOSS-TTS-Realtime实时交互模型。
4. Qwen3-ASR-1.7B:新一代语音识别系统
阿里云通义千问推出的新一代开源端到端自动语音识别模型家族,基于Qwen3-Omni多模态基座与自研AuT语音编码器。聚焦高精度、多语言、长音频及流式/非流式一体化的语音转文本能力。模型以原始音频信号为输入,通过端到端架构映射输出结构化文本,同时支持字/词级的毫秒级时间戳对齐。适用场景覆盖会议转写、智能字幕、客服语音归档及方言语音交互等。
5. Z-lmage:阿里 60 亿参数开源文生图模型
Z-Image是通义千问团队推出的新一代高效图像生成模型。继蒸馏版Z-Image-Turbo在Artificial Analysis文本生图排行榜夺得开源模型第一后,团队正式开源标准版。作为Z-Image系列的主要社区基础模型,标准版为非蒸馏的完整模型,在生成质量、风格灵活性与二次开发支持上更具优势。
6. GLM-OCR:轻量级多模态 OCR 模型
智谱AI开源的0.9B参数量轻量级多模态OCR模型,专注复杂文档场景的高精度文本识别与结构化解析。以“小尺寸、高精度、易部署”为核心优势,基于GLM-V编码器-解码器多模态架构,融合自研CogViT视觉编码器与RLHF优化。在OmniDocBench V1.5评测榜单以94.62分登顶SOTA,性能接近Gemini-3-Pro。适用于办公文档、教育科研公式、政务金融票据核验及代码片段提取等场景。
7. 使用 vLLM-Omni 部署 Qwen-Image-Edit
Qwen-Image-Edit是通义千问发布的全能图像编辑模型,兼具语义与外观的双重编辑能力。可执行低层次的外观编辑与高层次的语义编辑。模型支持中英文双语文字的精准编辑,能在保留原有字体、字号与风格的前提下修改图片中的文字。
8. 使用 vLLM-Omni 部署 Qwen-Image-2512
Qwen-Image-2512是Qwen-Image系列的Text-to-Image基础模型,面向高质量图像生成与复杂多模态内容表达。在人像生成的自然度上显著增强,面部结构、皮肤质感与光影关系更接近真实摄影效果。自然场景中能生成更细腻的地貌纹理、植被细节及动物毛发等高频信息。同时,图像中文字的生成与排版能力也有所改进,可更稳定地呈现可读文本与复杂布局。
9. Qwen3-TTS:高质量可控多语言语音合成 Demo
Qwen3-TTS-12Hz-1.7B-CustomVoice是阿里Qwen团队推出的新一代高质量文本转语音基础模型,专注在单一框架下实现高自然度、低延迟的语音生成。基于12 Hz声学建模框架,参数量1.7B,在语音清晰度、韵律一致性与跨语言稳定性方面表现优异。亮点在于:无需额外训练,推理阶段即可切换预定义说话人,并结合自然语言风格指令实现精细的表达控制。
10. vLLM+Open WebUI 部署 Qwen3-Coder-Next
Qwen3-Coder-Next是通义千问开源的轻量级代码生成大模型,专注于全场景编程辅助与代码生成。以“高性能、低门槛、易部署”为核心优势,基于Qwen3大语言模型架构优化,融合代码领域专属预训练数据与RLHF代码对齐优化。适用于算法编写、业务代码生成、代码注释补充、跨语言代码转换及Bug修复等多种编程场景。
11. VibeVoice-ASR:多功能端到端语音识别 Demo
VibeVoice-ASR是微软团队开源的高性能、多功能端到端语音识别模型,专为长音频内容提供结构化、上下文感知的语音转文本服务。采用统一的音频建模架构,可一次性处理长达60分钟的长音频,支持生成包含说话人身份、时间戳及转录内容的结构化输出,并允许用户提供上下文信息来提升识别准确率。
12. MiniCPM-o-4_5:面壁智能开源的全双工全模态模型
MiniCPM-o-4_5由面壁智能与清华大学自然语言处理实验室开源,是一款9B参数的全模态旗舰模型。采用端到端架构,融合SigLip2、Whisper、CosyVoice2与Qwen3-8B。作为行业首个支持“即时自由对话”的模型,实现了真正的全双工交互——边看、边听、边说,彻底告别传统回合制的交互模式。










