AI小宇宙战局:字节腾讯入局,百川联创下场
4月下旬,一篇聚焦前妙鸭相机产品负责人张月光打造的AI播客产品ChatPods的分析报告指出,利用AI构建泛播客工具或平台挑战重重。近期,AI领域另一位知名从业者离职创业,所选赛道恰恰也是AI播客。
2025年3月,前百川智能联合创始人焦可宣布离职创业。到了7月,他创办的“北京耳朵时间科技有限公司”悄然上线了一款AI播客产品——“来福”。
与ChatPods借助AI增强人类制作的播客内容、侧重推荐与摘要不同,“来福”平台上的所有播客均由AI生成。用户可随时生成并点播想听的内容。注册时,既可选择语音对话(AI会询问3个问题),也能通过文字提交基础信息(年龄、性别、感兴趣的主题标签)。注册完毕后,主页会推荐符合个人兴趣的播客,并配备一个ChatBot。收听过程中,用户可随时通过语音或文字与AI互动,提问、点播甚至闲聊。
测试显示,来福目前已预制了不少播客内容。用户也能根据喜好点播——例如,“我想听背部运动的相关内容”。如果库中没有,大约3到5分钟后,系统会生成一段15分钟的播客,由两个AI主播“小来和大福”以对话形式讲解背部肌肉结构及锻炼前注意事项。不过,其他同事测试时遇到了生成失败的情况,系统转而推荐了其他内容。
截至8月2日,点点数据显示,来福总下载量约2000次。产品尚处早期阶段,第三方平台尚未收录活跃用户及收入数据。将张月光的ChatPods与焦可的来福对比,可以发现一个明显的转变:从“AI加持播客”到“AI生成播客”,AI与播客的结合更加“原生”。
无独有偶,在海外NotebookLM走红之后,近两个月内,多款AI生成播客的产品或功能在国内市场陆续上线。除了来福这类用户点播主题、AI直接生成的模式,其余大多沿袭NotebookLM的路径:用户输入需求、提供参考文件和链接,然后由AI直接生成一段音频播客。
人类提供内容,AI负责“制作”,能达到及格线吗?
ListenHub首页,豆包和Coze的页面也大同小异
从使用方式上看,三款产品大同小异:输入文字、上传资料,等待约5分钟,即可直接得到可发布的完整音频(目前豆包仅支持上传资料,无法输入文字)。当然,用户也可以不做任何上传,将内容搜集工作完全交给AI。但测试表明,这种方式输出的内容质量远不如上传材料来得扎实。此外,豆包和Coze目前都只能使用官方预制语音,只有ListenHub在7月29日向其订阅用户推出了语音克隆功能。
AI生成播客工作流程
总体而言,AI播客的工作流程很像“人机共创”。人类仍是创作主体,把控主题、核心内容与观点;AI则充当“制作人”,将文字内容口语化、叙事化地包装与润色,再通过自主搜索补充资料、完善观点,最终输出一段5到15分钟的对话式短播客。
注:红框中是AI可以重点提效的环节。嘉宾访谈类播客由于无法提前获取嘉宾观点,目前AI尚不能提供帮助。| 来源:Reddit
对应播客原有的创作流程,AI播客产品能显著提升效率的是非访谈节目的“录制”与“后期剪辑、制作”环节(即红框部分)。根据JustPod数据,中文播客创作者每期节目的净工作时间达12.9小时,其中录制和剪辑工作量占比超过一半,不仅量大而且繁琐枯燥。从逻辑上看,AI播客消除了“录制、剪辑”的门槛,让擅长内容输出但不擅长播音和剪辑的人也能制作播客。对于已有播客创作者而言,这无疑是一个提效方案。
理论上虽成立,但AI播客究竟能达到人类播客的几成功力?带着这个问题,我们将之前那篇关于ChatPods的选题文章“喂”给了ListenHub、豆包和Coze,分别生成了一段播客,并从内容与听感两个层面总结了5个测试维度。结果如下:
从结果来看,三款产品生成的播客效果令人惊喜。它们都能较好地模仿播客风格,对话自然,忠实于原文的内容与观点,基本达到人类播客的及格水平。三者对比,ListenHub表现最佳;Coze的听感与ListenHub相近,但“扣分点”在于存在一些事实错误;豆包存在抢话问题,内容上也没有增量信息,综合表现略逊一筹。
(关心测试过程与细节的读者可继续阅读,我们也贴出了三段播客链接。各位读者可自行收听、评判。若不关心细节,可跳过。)
豆包生成的内容基本复述原文,没有自行搜索的增量信息,也未改动文字结构,只是将文章改成了对话风格并做了精简。听感上,豆包在前30秒出现了抢话——开场白尚未说完,另一个人就接上了。
文章中并未提到ChatPods有实时向主播提问的功能,仅能向AI提问。此处Coze出现了事实错误|图片来源:Coze
Coze在生成播客时会搜索大量网络信息,播客中也能听到其他文章的观点与信息。但AI自行搜索的内容中出现了明显的事实错误。听感上则没有大问题。
ListenHub深度探索模式输出的播客脚本。图中高亮内容为AI自行添加的分析|图片来源:ListenHub
ListenHub的“速听精华”模式与豆包类似,基本是“用对话呈现事实”。“深度探索”模式更像Coze,时长8到15分钟,AI会更深层次理解文章,并参考增量信息给出分析。例如,测试文章提到“投资人愿意投钱,主要是看中张月光的个人能力”,播客中AI将其归为“CEO信仰”,并分析了深层原因。
从测试结果看,三款产品的输出都能及格。但作为生产力工具,这些产品几乎是NotebookLM的复制——不仅时长小于15分钟,不太符合主流用户需求,也没有二次剪辑、短切片、多平台封面生成等适配播客场景的提效工具。
更关键的问题是,AI播客质量及格,与能被听众消费之间,还有不小距离。
不同的路径,相同的结果?
上述AI播客产品直接生成内容的思路,与ChatPods不同。但分析下来,AI播客产品生成的内容较适用于以事实传达为核心的“新闻类播客”场景。而在更大众化的“娱乐类”和“知识类”播客中,却很难替代现有播客内容并被用户接受。
娱乐、学习、打发时间是用户收听播客的主要目标,学习排名第二
之前分析提到,秉持放松、陪伴、娱乐等非功利目的收听播客的用户占比,与“获取信息”几乎持平甚至更高。而娱乐类播客内容本身高度依赖主播的真实情绪、即兴发挥以及主播之间的化学反应——这些恰恰是当前AI难以做到的。
小宇宙平台科技类播客订阅数Top11,发布时间6月10日|图片来源:小红书博主赵智沉(侵删)
知识型播客看似与AI“专业对口”。但问题在于,目前大多数知识型播客以“访谈类”为主,AI很难介入。从小宇宙平台订阅量Top11的科技类播客来看,除排名第5的《大小马聊科技》是3位固定主播对谈外,其余10档均为“主持人+不同嘉宾”的访谈形式。
对于知识性播客,用户的核心需求是“一手信息”和“独特观点”。尤其是科技、财经等相对专业的领域,由业内人士输出观点和见解,说服力明显更强。相比之下,AI生成的内容显然缺乏竞争力。在实际操作中,主播和嘉宾对话前通常只商量大致框架,真正对话时会有大量框架外的“追问”和“闲聊”。这种不可预知性,决定了目前的AI生成播客模式很难加持访谈类节目。
2020年新闻类和每日新闻播客占整体比例(左),以及欧美部分市场中新闻类和每日新闻播客在苹果播客Top250榜单中的占比(右)
尽管AI播客可能很难适应多数热门播客形式,但在“重信息传达、轻解读评论”的新闻类播客中,它仍有用武之地。新闻类播客虽然不是主流,但也有忠实受众。根据2020年一项统计,新闻类播客数量仅占所有播客的7%,但在部分市场受众并不少。例如在法国和美国的苹果播客Top250(2020年)中,新闻类播客的上榜比例分别达到45%和30%。
总体来看,除新闻类外,无论是“博人一笑”的娱乐类,还是“对话权威”为主的知识类播客,AI都很难加持到能被听众喜爱和消费的程度。与NotebookLM一样,这些AI播客产品可能更像是一种“帮用户解读晦涩文章、自我学习提效”的工具化场景。
写在最后
综合以上分析,AI生成播客的质量已能达到及格以上水平,但离“被用户接受”仍有差距。而从整个市场来看,相比长/短视频,音频播客仍是偏小众的媒体形式。加之其发布频率低、内容长、粘性高的特点,形成了强大的马太效应——头部主播吸走了大部分流量与收入。
从喜马拉雅和Ipsos的调查来看,要成为头部主播,内容的知识性、趣味性、权威性、主播个人特点缺一不可。AI生成的播客内容虽能及格,但想要与市场上现有的头部内容竞争,仍然非常困难。















