Fish Audio与Hume AI：多角色零延迟开源语音模型对比

2026-06-11阅读 0热度 0

人工智能

话说，今天这份日报的信息密度相当高，从世界级大牛的创业融资，到行业内卷到极致的开源语音模型，再到AI娱乐与商业智能的新玩法，几乎每个板块都值得好好琢磨一下。

必须说，技术圈的节奏现在是越来越快了，一不留神就会错过重磅消息。不过别担心，该划的重点一个都不会少。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、杨立昆创办，世界模型公司 AMI 完成超 10 亿美元融资

3 月 10 日，由图灵奖得主、前 Meta 首席 AI 科学家杨立昆（Yann LeCun）创办的世界模型研究所/创业公司 AMI，刚完成了一笔 **10.3 亿美元的融资，投前估值达到 35 亿美元**。这可不是个小数目。

AMI 的全称是 Advanced Machine Intelligence，直译就是“先进机器智能”。它的核心研发方向是“世界模型”（world models），目标是开发出能够从真实世界中学习抽象表征的模型。说白了，就是让AI不仅仅会做文字游戏，而是真正理解物理世界的运行规律。

来看看这轮融资的投资方阵容，几乎集齐了全球顶级资本和产业巨头：

领投方包括凯辉创新、Greycroft、Hiro Capital、HV Capital 和贝索斯远征；
战略投资人名单里赫然出现了英伟达、丰田创投、淡马锡、软银、马克·库班和穆里耶家族；
跟投方则包括了埃里克·施密特、阳狮集团、三星、蒂姆·博纳斯·李等一众大咖。

还有一个关键信息点：**谢赛宁，这位AI基础研究领域的顶级专家，同时也是杨立昆的老朋友和学校同事，已经正式加入AMI，担任首席科学官。** 这无疑为AMI的技术路线增加了重量级砝码。

从融资纪要来看，这笔钱将主要用于支持长期科研、全球招聘以及世界模型方向上的可靠产品落地。世界模型这条路虽然漫长，但资本显然看好其长远价值。（@APPSO）

2、Hume AI 开源 TADA：基于文本-声学双向对齐架构的实时语音合成模型，超低延迟零幻觉率

Hume AI 正式开源了 TADA（Text-Acoustic Dual Alignment）。这个模型的技术亮点很明确：通过一种新型的Tokenization方案，实现了文本与音频符号的 1:1 同步对齐。

这个方案解决了一个长期困扰传统大模型TTS系统的问题：音频Token数量远多于文本Token，导致上下文窗口被迅速耗尽，进而引发各种“幻觉”。TADA的轻量化设计，让它有能力直接在移动端或边缘设备上运行，不用依赖云端API。

核心技术参数与性能指标

同步机制：采用单文本 Token 对应单连续声学向量的流式处理，每秒音频仅需处理 2-3 个帧（Tokens），远低于同类系统的 12.5-75 Tokens。

推理速度：实时率（RTF）达到 0.09，比同级别大模型TTS快了 5 倍 以上。

可靠性：通过物理架构强制映射，在 LibriTTSR 测试集中的幻觉率（CER > 0.15）为 0。这个数据对于金融、医疗等对“胡说八道”零容忍的场景来说，价值巨大。
上下文效率：在 2048 Token 窗口内，可以容纳大约 700 秒的音频，处理效率比传统方案提升了10倍。
生成质量：基于 Flow-matching 头部生成声学特征，说话人相似度达到了 4.18/5.0，自然度为 3.78/5.0。

从工程角度看，TADA的核心价值在于它提供了一种“可部署的TTS”，而不是实验室里的炫技。目前开源模型主要针对语音续写（Speech Continuation）场景，如果想用在智能助手上，可能需要下游微调。另外，处理超过10分钟的长文本时，建议重置上下文，以免出现音色漂移（Speaker Drift）。

Huggingface 链接：https://huggingface.co/collections/HumeAI/tada
Blog 链接：https://www.hume.ai/blog/opensource-tada

( @hume_ai@X)

3、Fish Audio 开源 S2：Dual-AR 架构实现 <100ms 延迟与多角色长语音生成

Fish Audio 没有停在原地，他们开源了基于 4.4B 参数双自回归（Dual-AR）架构的 S2 文本转语音模型，训练数据高达 1000 万小时音频。这个模型主打的是生产级的低延迟流式推理，以及更精细的操控能力。

几个核心能力值得关注：

自然语言精细化行内控制：你可以在文本中直接嵌入指令标签，比如 [astonished]、[voice up]，实现词级的音调、情感和语速控制。在 EmergentTTS-Eval 评估中，副语言控制胜率达到了 91.61%，居然超过了 GPT-4o-mini-tts。
多角色多轮对话支持：通过、这类标签，可以一键生成复杂的多人对话。系统还支持多Prompt音频输入，能快速完成多音色克隆与切换。
高效率流式推理性能：实测首包延迟（TTFT）小于 100ms，实时因子（RTF）低于 0.195。在单张 NVIDIA H200 上，系统可以在维持 RTF < 0.5 的前提下，实现每秒 3000+ 声学 token 的吞吐量。
长文本上下文推理稳定性：支持长上下文推理，在生成跨段落的长文本故事或演讲时，能保持音色和语气的一致性，解决了传统TTS模型长序列下的质量衰减问题。
Dual-AR 非对称架构优化：采用 4B 参数的 Slow AR 处理语义 codebook，400M 参数的 Fast AR 处理残差声学细节。这个设计与标准 LLM 同构，可以无缝利用 SGLang 的连续批处理、RadixAttention（前缀缓存命中率达 86.4%）等优化手段。

模型权重、微调代码及 SGLang 推理栈已经全部在 GitHub 和 Hugging Face 开源；S2 Pro 版本也已经在官方平台上线。

GitHub：https://github.com/fishaudio/fish-speech/
HF：https://huggingface.co/fishaudio/s2-pro
官网 blog：https://fish.audio/zh-CN/blog/fish-audio-open-sources-s2/

信息来源：

（@Fish Audio Blog）
（@Fish Audio Blog / arXiv:2603.08823）

GitHub 链接：https://github.com/fishaudio/fish-speech/?tab=License-1-ov-file#readme

( @FishAudio@X)

02 有亮点的产品

1、「幕间」连续完成两轮千万美元融资，用「世界模拟器」突围 AI 娱乐

AI 互动娱乐平台「幕间」近期连续完成两轮融资，累计金额达千万美元。两轮融资分别由锦秋基金、云九资本领投，包括前网易副总裁少云、原沐瞳 CEO 袁菁（Justin）在内的多位游戏行业资深人士跟投。

创始人 Roi 的履历很有意思，她曾在乐元素、莉莉丝工作，后来去了字节跳动教育线负责游戏化产品设计。在创办「幕间」之前，她是 LiblibAI 的联合创始人及产品负责人。这段经历让她亲历了AI工具从0到1的爆发和惨烈的算力补贴战。

她认为，做「幕间」是对“AI如何服务于人类娱乐”进一步思考后的选择。离开 LiblibAI 后，她想用一种更具感性色彩和想象力的方式切入AI与人类的互动关系——基于UGC的AI模拟器平台。这有些类似刚获得1亿美元融资的 Simile，那个基于“斯坦福小镇”逻辑的社交沙盒，让用户作为“上帝”观察 Agent 的自主演化。

「幕间」并非传统意义上的游戏，更像是一个集成密室、剧本杀、短剧、游戏的线上综合游乐园。平台上的创作者能使用AI工具创造不同的世界，用户则可以选择、进入并沉浸其中。与传统游戏相比，它更轻量、更碎片，也更强调个性化的反馈。用她的话说：“和AI聊天久了会乏味，而互动剧、互动小说的选项又太过单调。”

最出乎 Roi 意料的是，平台最核心的创作者并非专业游戏从业者或程序员，反而是 **来自一二线城市的“00后”女生**。这些人同时也是玩家。为了凝聚这群创作动力蓬勃的核心资产，「幕间」提供了一整套工具链，让创作者能像搭乐高积木一样搭建Agent。

在3月中下旬，平台计划开启更大规模的测试和模拟器开发大赛，世界模拟器的“品类”还将拓宽到修仙、职场、历史演化等更广泛的领域。这或许会是AI娱乐赛道一个值得关注的变量。（@锦秋集）

2、Intercom 融资 2.5 亿美元发力「客户智能体」：基于自有模型与服务栈的架构演进

Intercom 宣布通过 Hercules Capital 完成 2.5 亿美元债务融资，这笔资金将专项用于研发其下一代 Customer Agent（客户智能体）。目标是让AI从简单的FAQ检索工具，升级为具备销售、顾问和专家职能的端到端业务模块。

技术差异化与工程路径

垂直领域大模型：不同于依赖通用底座的竞争对手，Intercom的智能体运行在基于数十亿级专有客户体验数据训练的自有模型之上。这个模型由60人规模的AI实验室开发，针对客服场景的响应精度和业务对齐进行深度优化。
产品形态：平台化而非顾问模式：提供的是标准化、自助化的 Purpose-built Platform。企业可以通过API与现有服务栈（如Zendesk、Service Cloud等）或原生 Intercom + Fin 组合进行深度集成。
新型对话范式：引入全新的交互逻辑，支持智能体记忆用户全生命周期的上下文，实现从简单的“单次交互”向长程业务逻辑处理的跨越。
业务闭环能力：支持智能体执行复杂动作，比如自动生成Pipeline。目前已经有企业通过该系统实现了数千万美元规模的销售增量。

Intercom 正在建立“自有数据+自有模型+自有Help Desk栈”的垂直集成壁垒，直接对标那些基于OpenAI/Anthropic开发的薄层Agent。这笔投资将重点攻关“Customer Agent”在复杂决策、多轮对话稳定性及业务自动化方面的能力。( @egohan@X)

3、Dify 完成 3000 万美元 Pre-A 轮融资：加速生产级 Agentic Workflow 平台建设

开源AI应用开发平台 Dify 宣布完成 3000 万美元 Pre-A 轮融资，由红杉领投，GL Ventures、Alt-Alpha Capital（Bessemer Venture Partners 新孵化基金）、五源资本、瑞穗力合投资和 NYX Ventures 跟投。

作为目前在 GitHub 上星标排名第51位的开源项目，Dify 已经在全球超过140万台机器上运行。它的核心定位很清晰：充当模型层与业务系统之间的“逻辑层”，提供可视化编排与生产级基础设施。

本轮融资将重点提升 Agentic Workflow 的生产可靠性，包括构建块的可预测性和长链路调试机制。研发方向也涵盖了企业级基础能力的强化，比如高并发性能调优、合规性审计及精细化权限控制。同时，Dify 将进一步降低构建门槛，让非开发背景的领域专家也能直接编排业务逻辑，并持续扩展插件、连接器及社区模版生态。( @Dify)

03 有态度的观点

1、黄仁勋：AI 与电力一样同等重要

昨天，英伟达 CEO 黄仁勋在一篇署名文章中提出了AI的“五层蛋糕”架构模型，并明确将AI定性为与电力同等重要的现代基础设施。

黄仁勋指出，计算技术正从传统的预制软件向实时生成的智能转变，这种底层逻辑的演进要求整个计算架构进行彻底重构。他将AI架构从工业视角自下而上拆解为五个层级：能源、芯片、基础设施、模型与应用。

文中强调的观点相当直接：能源是制约智能系统产出规模的首要瓶颈；芯片层决定了AI的扩展速度与效率；基础设施层表现为旨在“制造智能”的AI工厂；模型层正从语言扩展至生物化学、物理模拟等前沿领域；顶层的应用层（如自动驾驶、人形机器人）则负责创造经济价值。

这五个层级相互强化，任何顶层应用的成功都会对底层设备与能源产生强烈的需求拉动。在行业动向层面，文章肯定了开源模型对激活全栈算力需求的关键作用。黄仁勋以 DeepSeek-R1 为例指出，高性能推理模型的广泛开放，直接加速了应用层的普及，并逆向带动了底层训练、算力设施及能源的规模化增长。这个视角，值得深思。(@APPSO)

04 社区黑板报

1、Physical AI 系列活动硅谷站！探讨和上手全模态与硬件智能丨 Meetup+Workshop，3 月 19 日

湾区的开发者和创业者们，3月19日GTC期间，有一场全天候的Physical AI活动在硅谷等着你们。

上午的Meetup主题是“对话真实世界”，Agora、RiseLink、MiniMax、HumanTouch、EverMind、Resonance Ventures 等团队会齐聚一堂，拆解全模态与端侧智能的机会与未来。

下午则是硬核的Workshop环节：基于 TEN 框架，手把手接通语音AI Agent。重点在于，现场会准备 40 套 Agora R1 开发板，代码跑通了，直接就能把硬件带回家。

上下午活动需要分开独立报名，名额有限，感兴趣的话可以看看：

上午 Meetup 报名：https://luma.com/8we6qyma
下午 Workshop 报名：https://luma.com/onc0xr9y

地点：Sunnyvale（审核后发具体定位）

阅读更多 Voice Agent 学习笔记，了解最懂AI语音的头脑都在思考什么。