阿里大模型产品“通义听悟”升级:超长视频自由问,还会做思维导图
阿里大模型产品“通义听悟”升级:超长视频自由问,还会做思维导图
3月19日,阿里旗下的大模型应用“通义听悟”迎来了一波功能上新。这次升级带来了六大新能力,其中音视频问答助手“小悟”的登场,无疑是最引人注目的亮点。
通义听悟本身已是功能集大成者。它接入了通义千问大模型,融合了转写、翻译、角色分离、全文摘要、章节速览等十多项AI能力,堪称音视频内容处理的一站式工具箱。用户不仅可以进行基础处理,还能轻松标重点、记笔记。
而本次升级,可以说是让这个工具箱变得更加“聪明”和“主动”。核心突破点在于新上线的“小悟”。这个助手的关键价值在于,它让获取信息的方式从“被动看”变成了“主动问”。通过一系列底层技术的优化,比如多语言Query处理和长篇章文本理解,“小悟”实现了对超长音视频内容的自由问答,其支持的音视频时长和文件数量,据说都突破了业界的现有上限。
具体怎么用?场景非常灵活。在单个记录页面,你可以直接向“小悟”提问,哪怕这个音视频长达6小时、大小有6G。无论是追问某个具体话题,还是直接让它整理金句、梳理结论、撰写会议纪要,它都能应对。更有意思的是,你还可以在首页向“小悟”发起全局提问,让它一次性扫描、理解你上传过的上百条音视频内容,进行跨记录的信息整合。对于英文内容,你完全可以用中文提问,它会直接用中文回答,跳过了先翻译再理解的繁琐步骤。此外,这个助手还挺“贴心”,会根据内容智能推荐你可能关心的问题。
除了重磅的“小悟”,本次升级还针对几个高频需求,推出了非常实用的新功能。一键AI改写,能迅速将口语化表达转化为精炼的书面语言,这对整理访谈记录的人来说简直是福音。另一个是思维导图自动生成功能,最高支持五级结构的XMind脑图,特别适合用来快速梳理播客、讲座的逻辑脉络。
▲ 通义听悟思维导图示例
产品细节上的打磨也在继续。笔记功能现在支持一键插入视频时间戳和对应画面截图,回顾时定位更加精准。同时,系统能自动识别音视频文件的语种,进一步简化了操作流程。
值得关注的是,通义听悟此次还同步启动了“高校公益计划”。所有中国大陆的高校师生,只需使用后缀为edu.cn的教育邮箱完成认证,就能直接获赠500小时的音视频转写时长,同时云存储空间也从基础的20G大幅扩容至200G。这无疑是在向学术和教育群体释放积极信号。
作为国内首个开放公测的大模型应用产品,通义听悟自去年6月发布以来,发展势头相当可观。官方数据显示,其累计用户已超过百万,覆盖学生、教师、白领、记者、律师、金融分析师等诸多群体。平台的活跃用户日均进行超过3次音视频转写,每天处理的字符量高达约20亿字。这些数字背后,反映的是市场对AI增效工具的迫切需求正在被快速激活。

