Linq融资2700万美元推统一通信API,Figure创始人投1亿美元成立Hark研发多模态
开发者和行业观察者们,大家好。
这里是新一期的“RTE 开发者日报”。我们的社区编辑团队,照例为大家梳理了近期 RTE(实时互动)领域里值得关注的技术进展、产品动态和一些有启发性的观点。内容力求提供有价值的参考,但终究只是编辑团队的一孔之见,欢迎大家随时交流、碰撞想法。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、通义推出 PrismAudio:为视频“听音配画”,让声画真正同频
通义实验室最近放出了一个叫 PrismAudio 的视频生成音频(Video-to-Audio)框架。它的核心目标很明确:给视频画面自动配上高度同步的环境音——马蹄声、风雨声、金属敲击声,这类与画面内容严丝合缝的背景音效。
这个框架有意思的地方在于,它被称作是首个将强化学习和思维链紧密结合的视频环境音生成方案。用一个形象的比喻来说,就是教会 AI 模型“先思考,再发声”,而且不是一家之言,是四位“老师”同时给它打分,互相监督。
- 语义老师盯着画面,教模型分辨“这是马蹄声,不是鸟叫声”。
- 时序老师拿着秒表,监督声音和动作必须精准同步。
- 美学老师挑剔音质,要求声音听起来自然、有层次、不刺耳。
- 空间老师听声辨位,检查声音传来的方向是否与画面中的声源位置一致。
生成音频之后,光靠“像不像”这一个标准来评价,模型很容易“顾此失彼”。所以,他们给每位老师都配了一个独立的奖励函数,让四位老师各自打分,互不干扰:
- 语义老师用 MS-CLAP 打分,评估声音与画面内容的匹配度。
- 时序老师用 Synchformer 打分,精准测量声音与动作的同步程度。
- 美学老师用 Meta Audiobox Aesthetics 打分,从清晰度、动态范围、丰富度等多个维度评估音质。
- 空间老师用 StereoCRW 打分,验证左右声道立体声信息是否与画面中的声源位置对应。
这四个分数最终合并成一个综合评分。模型训练的目标,就是不断调整自己的生成策略,让这个总分越来越高。这样一来,模型就不会只盯着单一标准,而是必须同时满足四个维度的要求,哪个方面都不能掉队。
想让 AI 做好视频配音,关键技术不在于堆参数或堆数据,而在于让模型学会像人一样去拆解任务、权衡不同维度的要求。这套“拆解任务、多维反馈、高效优化”的方法论,不仅适用于视频配音,也为其他多目标生成任务提供了很好的思路。
HuggingFace 链接:
https://huggingface.co/FunAudioLLM/PrismAudio
(@通义实验室)
2、Smallest AI 发布 Lightning V3/V3.1 模型:原生 44.1kHz 采样率,支持 5-15 秒零样本跨语种声音克隆
Smallest AI 正式发布了专为对话智能体打造的 TTS 模型 Lightning V3 及其克隆版本 V3.1。这个模型针对流式生成场景下的实时语块输出进行了专门优化,在解决多语种混合(比如西语英语词级切换)时自然度下降的问题上下了功夫,同时开放了底层的发音控制能力。
5-15秒零样本声音克隆:Lightning V3.1 支持仅用 5 到 15 秒的音频素材,就能生成可直接使用的生产级声音克隆。这个功能无需微调,一次克隆就能在 15 种语言之间进行合成,并且能原生保留源音频中那些不规则的特色,比如停顿的节奏、呼吸声和特定的强调习惯。
原生 44.1kHz 与信道适配:模型底层原生输出 44.1kHz 的音频。同时,它也考虑到了不同受限带宽或部署场景的需求,提供了干净的降采样能力,一个模型就能输出 24kHz、16kHz 的 WA V 格式,以及专为传统电话系统优化的 8kHz mulaw 格式。
发音字典接口:针对医疗术语、品牌名这些不常见词汇导致的模型置信度下降问题,提供了发音字典覆盖层。开发者可以通过硬编码强制指定期望的输出,从而绕过模型的自动推理,确保在垂直领域里的专有名词能达到 100% 的准确率。
对话场景评估与数据表现:在基于 Seed-TTS 评估语料库和 LLM-as-judge 框架的流式生成测试中,它的单词错误率是 5.38%。官方披露的数据还显示,在整体自然度的盲测中,它对标 OpenAI gpt-4o-mini-tts 的胜率大约为 76%。
Lightning V3 及 V3.1 作为闭源模型,现在已经正式上线并开放 API 接入,采用按需付费模式,没有基础订阅费或最低消费门槛。
( @kamath_sutra@X)
3、Figure 创始人个人注资 1 亿美元成立 Hark:研发端到端多模态模型与非穿戴 AI 硬件
连续创业者 Brett Adcock 又有了新动作,他创立的全新 AI 实验室 Hark 宣布投入 1 亿美元,用来研发原生多模态模型以及配套的硬件。这套系统主打软硬件在底层上的深度融合,具备长记忆和实时的音视觉交互能力。首批 AI 模型计划在今年夏季发布,目标是试图通过重构底层的设备交互方式,来替代我们熟悉的 App 和网页访问。
算力与基建部署:Hark 将在今年 4 月正式启用一个由数千张 Nvidia GPU 组成的新算力集群,来支撑其端到端多模态模型的训练。
跨平台具身数据协同:Hark 的模型目前已经在同属 Adcock 旗下的双足机器人公司 Figure 的设备上进行训练,直接获取物理世界的交互数据。不过两家公司保持独立运营,没有合并计划。
明确排除穿戴式硬件形态:设计总监 Abidur Chowdhury(前 Apple iPhone Air 工业设计负责人)明确表示,Hark 的硬件产品不会采用智能眼镜、AI Pin 这类在人类与世界之间“增加物理夹层”的可穿戴形态。
团队与资金规模:Hark 目前有 45 名研发人员,核心工程师和设计师来自 Meta AI、Apple 和 Tesla,并且已经获得了创始人个人提供的 1 亿美元种子轮资金。
首批 AI 基础模型预计将于今年夏季发布,应该是闭源的,硬件终端的发布时间和定价目前还没有公布。
(@TechCrunch)
4、Linq 获 2700 万美元融资并发布统一消息 API:原生集成 iMessage 与 RCS,延迟低于 120ms
通信集成平台 Linq 今天宣布完成了 2700 万美元 的融资,并同步推出了能够集成 iMessage、RCS、SMS、语音、FaceTime 和 Find My 的统一通信 API。
这意味着,开发者和 AI 智能体不再需要自己开发或依赖一个独立的 App,就可以直接通过用户手机原生的消息客户端,与用户进行全功能交互。
- 原生富媒体协议支持:API 深度接入了 iMessage 和 RCS 协议,直接开放了 emoji 回应、语音备注、富媒体文件传输、输入状态指示和群聊接口,同时还内置了针对 SMS 和 Voice 的自动降级机制。
- SLA 性能与吞吐量:官方披露系统 API 响应延迟低于 120ms,并提供 99.95% 的正常运行时间保证。
- 计费模式重构:针对 iMessage 和 RCS 渠道,他们明确放弃了传统云通信厂商那种“按条计费”的模式,目的是为了控制高并发智能体对话的成本。
- 安全与数据隔离:平台已经通过了 SOC 2 Type II 认证,所有用户数据以及传输过程都是强制端到端加密的,Linq 的服务端无法访问或读取通信的明文内容。
- 开发者工具链:提供了一键安装的 CLI 工具链和免费的 Sandbox 环境,支持与现有开发栈集成,最快可以在 5 分钟内完成消息工作流的部署。
( @elliott__potter)
02 有亮点的产品
1、老年人语音伴侣 Sam 亮相,集成认知监测与家庭安全网
针对高龄群体居家养老的痛点,一家 AI 初创公司推出了一款专用的语音伴侣 Sam。这款产品的定位是集“健康监测、安全预警、社交连接”于一体的智能中枢,希望通过自然的语音交互,降低老年人使用复杂科技产品的门槛。
核心功能与技术特性
- 主动式健康监测:和那种被动响应的语音助手不同,Sam 在日常对话中嵌入了认知游戏。系统通过分析交互数据,生成认知趋势报告,帮助家属在早期发现认知障碍(比如失智症)的潜在迹象。
- 通信与安全闸门:Sam 提供了简化后的通话与信息接口。为了防范针对老年人的电信反诈,系统设有核准名单机制,只有经过授权的家属或联系人才能通过 Sam 与老人沟通。
全方位看护集成:
- 用药提醒:可以配置个性化的用药计划并进行定时提醒。
- 异常告警:系统识别到异常行为或老人未响应时,会向家属端的 App 推送实时警报。
- 每日简报:家属可以通过配套的 iOS 应用,查看老人每一天的活动摘要和认知状态追踪。
在 2026 年银发经济和 AI 结合的趋势下,Sam 的方案体现了从“工具型助手”向“情感+医疗监护智能体”的转型。它的核心竞争力在于,把非侵入式的认知筛查和封闭式通信安全结合了起来,在保护隐私的同时,通过低频但关键的数据采集,为异地子女提供确定性的监护支持。
( @audrlo@X)
2、昆仑万维 Mureka V8,最新登顶 Artificial Analysis 音乐模型榜
昆仑万维的 Mureka V8,最近登顶了 Artificial Analysis 音乐模型排行榜,一举超越了 Suno V4.5、Udio v1.5 Allegro 等国际主流模型,拿下了人声(vocal)和器乐(instrument)双料第一。
先来感受一下由下面这个提示词生成的歌曲:
晚风民谣,温柔女声,黄昏乡间的慢时光
听完以后,你会发现,它生成的,已经不再是一段简单的“AI 音频片段”,而是一首结构完整、情感连贯、制作精良的“歌”。
Mureka 的技术进化呈现出几个清晰的阶段特征:
- 第一阶段(1.0-2.0):基础闭环与验证。 初始版本主要聚焦于端到端架构的工程可行性,通过“天工”平台上线中英文版本,解决了生成音频的稳定性问题,实现了从“内测实验”向“可用模型”的转变。
- 第二阶段(3.0-4.0):基模稳定性与听感重塑。 2024 年 8 月,模型迎来了大规模版本迭代。研发团队通过构建超大规模基础模型,解决了生成过程中的规模化一致性难题,在采样率和音质纯净度上实现了显著的提升,支撑起了独立产品的市场准入。
- 第三阶段(5.0-V8):多语种工程化与逻辑化创作。 随后的版本补齐了多语种工程化能力,为其全球化分发提供了支撑。
进入 2025 年,Mureka 引入了 MusiCoT (Music Chain-of-Thought) 技术和系统化的强化学习闭环:
不同于早期的概率性生成,模型开始具备“预见性”的创作能力,能够预先规划音乐框架、配器方案以及情绪起伏,然后按照逻辑链条推进音频渲染。在最新的 V8 版本中,模型对物理声学的模拟达到了新的高度。生成的音频在人声呼吸感、乐器空间成像以及自动化混音的专业度上,都表现出超越 Suno 和 Udio 的技术指标。
Mureka V8 的登顶预示着,AI 音乐已经完成了从“生成旋律”到“产出可发布成品”的质变。它的核心竞争力在于,将大语言模型的推理能力,深度耦合进了音频扩散架构,为专业音乐制作提供了高确定性、高保真度的底层生产力工具。
@量子位
03 有态度的观点
1、Claude Code 产品经理:模型快速进化下,传统产品经理方法论正在失效
最近,Claude Code 的产品经理 Catherine Wu(@_catwu)在 X 平台发文,分享了她对于在 AI 模型高速迭代背景下,产品经理这个角色是如何演变的思考。
Wu 指出,传统 PM 的工作方法是建立在“底层技术相对稳定”这个假设之上的,但在当前模型能力持续跃迁的环境中,这个前提已经不存在了。
她观察到,随着模型更新频率和能力边界不断变化,产品管理的流程也必须跟着调整。在具体的实践层面,她总结了四项原则:
- 以短周期冲刺替代长期路线图:她认为,长期的 Roadmap 很难与高频的小规模实验竞争。Claude Desktop 上的 Claude Code、AskUserQuestion 工具以及 todo list 功能,都源自团队内部的想法,通过快速原型构建和内部测试验证后迅速上线。
- 以 Demo 与评估取代文档:借助 Claude Code 和 Opus 4.6,构建可运行原型的门槛已经显著降低。相比撰写规格文档,直接呈现可交互的产品形态不仅更快,也更接近最终的体验。
- 随新模型发布重新审视功能清单:她建议在每次模型升级后,回头看看那些因为之前技术限制而被搁置的功能设想,再次测试它们的可行性,同时移除那些为弥补旧模型能力不足而搭建的额外“脚手架”。
- 保持系统简洁:她强调,在 Agentic 系统中,复杂度会明显放大失败的风险,产品设计应该优先寻找“最简单可行的方案”。
(@APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,都可以通过开发者社区或公众号留言联系我们。
1、桌游玩家招募!全球首款 AI 主题桌游《Talk With》线下开玩,北京 AI 原点社区 Party Nights 见!
我们又要举办 AI 主题桌游《Talk With》的试玩会了!就在中关村 AI 原点社区,人工智能主题日 Party Nights!
时间:3 月 28 日(周六)晚上 18:00---21:00
地点:海淀区中关村东路 8 号东升大厦 A 座 F1
报名方式:点击小程序链接报名即可
除了深度沉浸《Talk With》桌游体验,我们还有幸邀请到深耕 Physical AI 与 Voice Agent 领域的资深专家、现任行业头部 AI 硬件公司产品经理 Trent。他将带来关于对话式 AI 产品逻辑与技术趋势的深度分享。
如何玩《Talk With》?
AI 主题桌游《Talk With》(中文名:聊天能解决的事儿) 支持 3-5 人 同场竞技,每局约 40 分钟。
你会遇到一些意想不到甚至无厘头的需求场景(也就是不同的目标用户群体)。
你要灵活地调配初始资金 ,通过三轮竞拍逐步构建技术壁垒。
接下来在路演环节,你将展示产品愿景,并通过投票机制获得市场认可。
你还会遇到带来“命运大逆转”的**“市场行情卡”**,要么让你起死回生,要么是半路遇到黑天鹅!
每一局游戏将诞生两位冠军:
“独角兽奖” 授予资本最雄厚的创业者,
“金伯乐奖” 则属于最具投资眼光的伯乐。
无论你是策略大师 还是演讲达人,这里都有你大展身手的舞台。
报名试玩会,成为早期玩家
活动流程安排
- 17:30-18:00 入场签到
- 18:00-18:30 主题分享:Physical AI+Voice Agent 技术和产品趋势分享;分享人:Trent ,Physical AI 与 Voice Agent 领域的资深专家、现任行业头部 AI 硬件公司产品经理 。
- 18:30-18:45 桌游规则讲解和分组
- 18:45-19:45 第一回桌游
- 19:45-20:45 第二回桌游
- 20:45-21:00 自由交流
参与要求
玩家无需任何 AI 或桌游经验,我们会提供现场教学指导。
假如你对 AI 技术或创业 ,尤其是 AI 语音方向的技术或创业感兴趣,请加入我们。
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
我们欢迎更多的小伙伴参与 “RTE 开发者日报” 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激,并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
个人观点,仅供参考





