首页 > 其他资讯 > 阿里千问发布全模态大模型 Qwen3.5-Omni，无缝理解文本、图片、音频及音视频输入

阿里千问发布全模态大模型 Qwen3.5-Omni，无缝理解文本、图片、音频及音视频输入

时间：26-04-01

阿里巴巴通义千问发布全模态大模型 Qwen3.5-Omni

阿里巴巴旗下通义千问正式推出其全模态大模型 Qwen3.5-Omni。这一发布意味着通用人工智能的能力边界，已从文本、图像模态，实质性拓展至包含音频、视频及实时交互在内的统一理解与生成。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

其核心能力优势包括：

实现文本、图像、音频、音视频内容的无缝跨模态理解，并支持生成带精准时间戳的细节化描述；

在涵盖音频与音视频理解、分析、推理、翻译等任务的215项关键评测中获得SOTA成绩，综合表现超越业界标杆Gemini 3.1 Pro；

自然涌现出音视触觉“氛围编码”能力，可根据多模态输入生成可执行代码；

支持语义级实时打断、个性化音色克隆与语音指令控制，极大提升了对话交互的自然度；

具备256K超长上下文窗口与113种语言识别能力，可高效解析长达10小时的音频或1小时的视频内容。

原生集成联网搜索与复杂函数调用功能，使其从对话工具升级为可执行实际任务的智能体。

视频内容结构化与智能剪辑

向Qwen3.5-Omni-Plus模型上传一段视频，它能依据你的指令，生成带有时间戳的、结构化的深度描述：识别画面主体、转写字幕对白、标记背景音乐切换点、统计镜头转换次数、分析每一场景的事件。它甚至能执行内容审核，识别潜在敏感画面，直接将冗长视频转化为可检索、可管理的结构化知识库。

基于音视频指令的代码生成

模型能根据你的音视频描述，直接生成可运行的程序代码。本次最引人注目的发现之一，是在未进行专门训练的情况下，模型自然涌现出了“氛围编码”能力。这意味着，通过理解画面逻辑与需求，它可以输出Python脚本或前端页面代码，将创意构思到功能原型的验证周期压缩至一步。

类人级的实时对话交互

与Qwen3.5-Omni的对话体验无限接近真人交流。它具备精准的倾听判断力：背景杂音或无意间的语气词不会被误判为对话意图，而当用户确实需要插话时，它能即刻感知并流畅承接话题。你还可以直接下达“语速放慢”或“用兴奋的语调”等自然指令，如同指挥真人一样，实时调控语音输出的各项参数，获得高度拟真的交互感。