阿里大模型产品“通义听悟”升级：超长视频自由问，还会做思维导图

2026-05-02阅读 0热度 0

阿里大模型产品“通义听悟”升级：超长视频自由问还会做思维导图

阿里大模型产品“通义听悟”升级：超长视频自由问，还会做思维导图

3月19日，阿里旗下的大模型应用“通义听悟”迎来了一波功能上新。这次升级带来了六大新能力，其中音视频问答助手“小悟”的登场，无疑是最引人注目的亮点。

通义听悟本身已是功能集大成者。它接入了通义千问大模型，融合了转写、翻译、角色分离、全文摘要、章节速览等十多项AI能力，堪称音视频内容处理的一站式工具箱。用户不仅可以进行基础处理，还能轻松标重点、记笔记。

而本次升级，可以说是让这个工具箱变得更加“聪明”和“主动”。核心突破点在于新上线的“小悟”。这个助手的关键价值在于，它让获取信息的方式从“被动看”变成了“主动问”。通过一系列底层技术的优化，比如多语言Query处理和长篇章文本理解，“小悟”实现了对超长音视频内容的自由问答，其支持的音视频时长和文件数量，据说都突破了业界的现有上限。

具体怎么用？场景非常灵活。在单个记录页面，你可以直接向“小悟”提问，哪怕这个音视频长达6小时、大小有6G。无论是追问某个具体话题，还是直接让它整理金句、梳理结论、撰写会议纪要，它都能应对。更有意思的是，你还可以在首页向“小悟”发起全局提问，让它一次性扫描、理解你上传过的上百条音视频内容，进行跨记录的信息整合。对于英文内容，你完全可以用中文提问，它会直接用中文回答，跳过了先翻译再理解的繁琐步骤。此外，这个助手还挺“贴心”，会根据内容智能推荐你可能关心的问题。

除了重磅的“小悟”，本次升级还针对几个高频需求，推出了非常实用的新功能。一键AI改写，能迅速将口语化表达转化为精炼的书面语言，这对整理访谈记录的人来说简直是福音。另一个是思维导图自动生成功能，最高支持五级结构的XMind脑图，特别适合用来快速梳理播客、讲座的逻辑脉络。

▲ 通义听悟思维导图示例

产品细节上的打磨也在继续。笔记功能现在支持一键插入视频时间戳和对应画面截图，回顾时定位更加精准。同时，系统能自动识别音视频文件的语种，进一步简化了操作流程。

值得关注的是，通义听悟此次还同步启动了“高校公益计划”。所有中国大陆的高校师生，只需使用后缀为edu.cn的教育邮箱完成认证，就能直接获赠500小时的音视频转写时长，同时云存储空间也从基础的20G大幅扩容至200G。这无疑是在向学术和教育群体释放积极信号。

作为国内首个开放公测的大模型应用产品，通义听悟自去年6月发布以来，发展势头相当可观。官方数据显示，其累计用户已超过百万，覆盖学生、教师、白领、记者、律师、金融分析师等诸多群体。平台的活跃用户日均进行超过3次音视频转写，每天处理的字符量高达约20亿字。这些数字背后，反映的是市场对AI增效工具的迫切需求正在被快速激活。

阿里大模型产品“通义听悟”升级：超长视频自由问，还会做思维导图

阿里大模型产品“通义听悟”升级：超长视频自由问，还会做思维导图

相关阅读

最新教程

最新资讯