首页 > 其他资讯 > 阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

时间:26-04-01

阿里巴巴通义千问发布全模态大模型 Qwen3.5-Omni

阿里巴巴旗下通义千问正式推出其全模态大模型 Qwen3.5-Omni。这一发布意味着通用人工智能的能力边界,已从文本、图像模态,实质性拓展至包含音频、视频及实时交互在内的统一理解与生成。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

其核心能力优势包括:

实现文本、图像、音频、音视频内容的无缝跨模态理解,并支持生成带精准时间戳的细节化描述;

在涵盖音频与音视频理解、分析、推理、翻译等任务的215项关键评测中获得SOTA成绩,综合表现超越业界标杆Gemini 3.1 Pro;

自然涌现出音视触觉“氛围编码”能力,可根据多模态输入生成可执行代码;

支持语义级实时打断、个性化音色克隆与语音指令控制,极大提升了对话交互的自然度;

具备256K超长上下文窗口与113种语言识别能力,可高效解析长达10小时的音频或1小时的视频内容。

原生集成联网搜索与复杂函数调用功能,使其从对话工具升级为可执行实际任务的智能体。

视频内容结构化与智能剪辑

向Qwen3.5-Omni-Plus模型上传一段视频,它能依据你的指令,生成带有时间戳的、结构化的深度描述:识别画面主体、转写字幕对白、标记背景音乐切换点、统计镜头转换次数、分析每一场景的事件。它甚至能执行内容审核,识别潜在敏感画面,直接将冗长视频转化为可检索、可管理的结构化知识库。

基于音视频指令的代码生成

模型能根据你的音视频描述,直接生成可运行的程序代码。本次最引人注目的发现之一,是在未进行专门训练的情况下,模型自然涌现出了“氛围编码”能力。这意味着,通过理解画面逻辑与需求,它可以输出Python脚本或前端页面代码,将创意构思到功能原型的验证周期压缩至一步。

类人级的实时对话交互

与Qwen3.5-Omni的对话体验无限接近真人交流。它具备精准的倾听判断力:背景杂音或无意间的语气词不会被误判为对话意图,而当用户确实需要插话时,它能即刻感知并流畅承接话题。你还可以直接下达“语速放慢”或“用兴奋的语调”等自然指令,如同指挥真人一样,实时调控语音输出的各项参数,获得高度拟真的交互感。

个性化音色克隆定制

仅需上传一段短音频样本,即可训练出高度拟真的专属AI助手音色。克隆后的音色兼具自然度与稳定性,并支持跨语言合成。这允许你创建一个拥有自己声音特质的“数字分身”,用于个性化沟通或陪伴场景,显著增强交互的亲密感与辨识度。

自主任务规划与执行

模型的核心价值超越了基础问答,在于其任务执行能力。当你提出“查询明天北京的天气,并推荐一家附近的高评分酒店”这类复合请求时,它能自主规划步骤:联网搜索最新天气数据、调用工具查询酒店信息,最终整合成一份结构化的行动方案。其原生的联网搜索与复杂工具调用能力,使其转型为一流的智能任务执行中枢。

与上一代模型相比,Qwen3.5-Omni在长上下文处理、多语言支持及音视频深度理解等核心维度实现了显著升级。新增的语义打断、音色克隆与语音控制功能,共同将人机对话的自然度推向新高。结合ARIA语音合成技术的优化,其语音输出的流畅度与情感表现力也获得了进一步提升。

阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

在权威性能评测中,Qwen3.5-Omni-Plus版本在音频与音视频相关的理解、推理及交互任务上,累计取得了215项SOTA成果,覆盖音视频语义理解、音频事件分析、语音识别与翻译等多个关键赛道。

具体数据显示,其在通用音频的理解、推理、识别、翻译及对话任务上,性能已全面超越对比模型Gemini-3.1 Pro,音视频整体理解能力与之持平。同时,该模型的纯视觉与文本能力,则与同系列尺寸相当的Qwen3.5模型保持了一致的高水准。

阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

▲ Audio-Visual(音视频)

阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

▲ Audio(音频理解)

阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

▲ Text(文本能力)

阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

▲ Speech Generation(语音生成)

目前,开发者与用户已可通过阿里云百炼平台搜索并调用Qwen3.5-Omni系列API。模型提供了Plus、Flash、Light三种规格,旨在灵活适配从复杂深度推理到高并发轻量应用的多样化业务场景。


这就是阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入的全部内容了,希望以上内容对小伙伴们有所帮助,更多详情可以关注我们的菜鸟游戏和软件相关专区,更多攻略和教程等你发现!

热搜     |     排行     |     热点     |     话题     |     标签

手机版 | 电脑版 | 客户端

湘ICP备2022003375号-1

本站所有软件,来自于互联网或网友上传,版权属原著所有,如有需要请购买正版。如有侵权,敬请来信联系我们,cn486com@outlook.com 我们立刻删除。