AI融资动态:VUI Labs再获数千万,端侧同传小模型商业化落地;OpenAI估值直逼特斯拉
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术 」、「有亮点的产品 」、「有思考的文章 」、「有态度的观点 」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、DeepSeek 悄悄上线新论文,北大清华联创
DeepSeek最近有点安静,结果一出手就是一篇重磅论文——联合北京大学与清华大学,正式发布了DualPath技术方案。这东西解决的是什么?是AI大模型在执行复杂多轮任务时,被卡了好久的“历史数据读取瓶颈”。
这背后的问题,说到底就一句话:AI在处理超长上下文时,“处理输入信息”和“生成文本回答”两个计算模块的数据通道资源,经常对不上频——资源错配了。
新方案DualPath的做法是打破常规的单线传输限制:允许历史数据先通过闲置通道进入“生成回答”模块,随后再利用集群内部的高速网络,瞬间转发给“处理输入”模块。换句话说,就是让闲置资源先跑起来,不空转。官方评估数据显示,在处理真实复杂AI任务时,该技术把离线处理吞吐量最高提升了1.87倍,在线服务吞吐量平均提升了1.96倍。
眼下大模型正向具备自主规划能力的“智能体(Agent)”方向演进,AI需要频繁回顾动辄数万字的上下文。这导致系统性能的制约因素已经从“算力不足”变成了“数据传输太慢”。而DualPath的验证,证明了通过优化底层数据流向,可以在不增加硬件采购成本的情况下,大幅盘活闲置资源。这个思路,值得关注。
(@APPSO)
2、首创音视频深度协同与统一拼接框架:SkyReels V4 开启「生成+修复+编辑」一体化视频创作
2月27日,Skywork AI 正式发布多模态视频基础模型 SkyReels V4,以双流多模态扩散Transformer(MMDiT)为核心架构,能够实现1080p分辨率、32 FPS帧率以及15秒时长的音视频同步生成。这不仅是性能上的突破,更关键的是,它是全球首个集多模态输入、联合音视频生成及统一生成/修复/编辑任务于一体的视频基础模型。
在权威评测机构 Artificial Analysis 的基准测试中,SkyReels V4 在“文本生成视频(带音频)”领域排名全球第二,表现显著优于 Google Veo 3.1、OpenAI Sora 2 及 Wan 2.6 等主流模型——这已经是相当有实力的成绩单了。
传统视频模型普遍存在一个问题:模态割裂与功能分散,各干各的,缺乏协同。SkyReels V4 通过三大核心技术创新实现了多场景覆盖:
- 音视频深度协同生成:采用对称双流架构,视频与音频分支共享文本编码器,通过联合流匹配损失函数相互引导,从根本上解决唇形同步、音效对齐等痛点。
- 一站式统一拼接框架:提出通道拼接与时序拼接相结合的双维统一范式。该设计将文本/图像到视频的生成、区域智能修复(如替换主体、去除水印)及全维度视频编辑等多样化需求,统一转化为特定掩码配置下的修复问题,实现全流程无缝操作。
- 高效平衡生成策略:首创“低分辨率全序列+高分辨率关键帧”联合生成策略,配合视频稀疏注意力(VSA)机制,在保持高质量的前提下将计算成本降低了约3倍。
目前,SkyReels V4 的一体化创作能力已在广告营销、影视制作及教育培训等多个场景落地实践。未来,Skywork AI 计划进一步扩展60秒以上的长视频生成能力,增强交互编辑功能,并向开发者开放模型 API 接口。
(@昆仑万维集团)
3、Deepgram 成为 IBM 首个语音技术合作伙伴,全面接入 watsonx 打造企业级实时语音智能体
2月24日,IBM 与 Deepgram 宣布达成合作,IBM 将把 Deepgram 的语音转文本和文本转语音技术整合至其 watsonx Orchestrate 生成式 AI 解决方案中。通过此次合作,Deepgram 正式成为 IBM 的首个语音技术合作伙伴。
这次技术整合,专门用来满足企业客户对高性能转录和实时字幕的需求,帮助企业实现运营自动化。面对真实世界中复杂的音频环境,该系统展现出的核心功能优势包括:
- 复杂音频处理:能够有效应对背景噪音、多重口音以及真实的日常对话等复杂场景。
- 多语种与方言支持:提供更广泛的语言和方言选择,包含数十种阿拉伯语和印地语变体,以及反映不同地区口音的语音库。
- 定制与实时功能:增加了自定义调整、实时字幕生成以及自然语音输出等高级选项。
这些新引入的语音 AI 技术,将为医疗保健和金融等领域的自动化客户服务与支持、通话分析以及语音驱动的数据录入开辟新的应用场景。Deepgram 首席执行官 Scott Stephenson 表示,语音正迅速成为人类与技术交互的默认接口,企业客户如今可以通过 watsonx Orchestrate Agent Builder,在经过十多年完善的实时架构上构建语音智能体和支持语音的工作流。IBM 相关业务副总裁 Nick Holda 也指出,引入全新的语音识别与转录能力将优化并加速企业组织的 AI 计划,实现运营的现代化。
(@IBM Newsroom)
02 有亮点的产品
1、VUI Labs 完成数千万天使+轮融资,发力情感语音大模型与多模态 Agent
VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资,由同创伟业领投,老股东靖亚资本、小苗朗程持续加注。公司半年内累计获得近亿元投资,资金将用于核心模型迭代、产品和商业化落地、全球人才引进及 Voice Agent 平台建设。VUI Labs 由上海交通大学特聘教授钱彦旻与连续创业者梅杰创办,专注于打造多模态情感对话语音大模型与语音智能体平台。
基于在端到端语音模型领域的深厚积累,VUI Labs 自研了多模态情感交互语音大模型 Luna 系列,其核心技术成果主要包含以下三点:
- Luna-1:作为全球首个端到端情感语音交互模型,在 VoiceBench 权威测评中取得 79.05 的高分,语音对话延迟仅 1.4 秒。
- Luna-TTS-1:语音合成模型延迟低至 200 毫秒,无需依赖“抽卡式”生成,即可在不同场景下提供稳定且具备丰富情感的高质量语音输出。
- Luna-Live-Translation-1:基于 SimulMEGA 无监督策略学习框架研发的端侧同声传译模型,大小仅 500M,延迟低至 1.5 秒,目前已在某知名手机品牌的欧洲版本上落地商业应用。
在产品应用方面,公司于2026年1月推出首个 C 端语音智能体产品 SaySo。与传统语音转文字工具不同,SaySo 具备多步规划、工具调用等能力,能精准理解上下文语境并优化输出内容。早期测试数据显示,该产品展现出极高的用户粘性:用户78%的文字产出已由其完成,横跨近50个主流应用;仅用6周时间,中位数用户的键盘依赖度即断崖式降至20%。
投资方认为,下一代人机交互界面的核心技术在于语音,而语音交互的关键在于时延与情感。VUI Labs 在这两方面的基础技术优势,结合成熟的工程化商业落地经验,将有力推动其在多模态 Agent 这一未来核心应用场景中实现快速突破与规模化发展。
(@Z Potentials)
2、中兴官宣 MWC 2026 推 TopFlow「直播神器」,还有 AI 宠物 iMoochi
中兴官方近日预热,将在 MWC 2026 世界移动通信大会(3月2日开始)推出一款 TopFlow“直播神器”。从宣传海报来看,TopFlow 带有屏幕和疑似录制按钮,屏幕中显示上传和下载速度,有望整合拍摄、网络、直播等功能。
同时,中兴还将推出一款 AI 宠物 iMoochi。这款产品采用毛茸茸造型,配有萌趣大眼睛。根据官方介绍,iMoochi 是一款以“陪伴”为核心的 AI 宠物,用柔软的触感、克制的表达与理解你之后的回应,陪在你身边。
(@IT 之家)
3、OpenAI 宣布获得超千亿美元融资
昨晚,OpenAI 终于宣布完成 1100 亿美元新一轮融资,投前估值高达 7300 亿美元。具体来看这一大笔钱的构成:软银投300亿美元、英伟达投300亿美元、亚马逊投500亿美元。有了这笔钱,OpenAI 的估值直逼特斯拉。
而这笔钱的去向,分别对应着三大战略方向:“与英伟达合作获取下一代推理芯片”“通过亚马逊 AWS 触达更多企业客户”和“支撑公司从研究型机构向全球产品公司转型”。
除了砸钱,亚马逊还与 OpenAI 签署了战略合作协议:
- AWS 将成为 OpenAI Frontier 平台的独家第三方云分销渠道;
- 双方联合开发 Stateful Runtime Environment(有状态运行时环境),让 AI Agent 能记住上下文、调用工具;
- OpenAI 将消耗 2 吉瓦的 Trainium 算力用于训练和推理。
与此同时,微软也紧急发声明“维稳”:与 OpenAI 的合作关系一切照旧——Azure 仍是 OpenAI API 的独家云服务提供商;微软保留对 OpenAI 模型和 IP 的独家授权;收入分成模式不变。
另外,OpenAI 还晒出了一组恐怖数据:ChatGPT 周活跃用户突破9亿,付费企业用户超过900万,消费者订阅用户达到5000万以上。OpenAI 称今年1月和2月有望成为公司历史上新增订阅用户最多的两个月。
(@APPSO)
03 有态度的观点
1、Salesforce CEO 反驳「软件末日」:都不是第一次这样讲了
近期,客户关系管理软件服务提供商 Salesforce CEO Marc Benioff 在最新的财报电话会上,正面回应了“AI 智能体将导致 SaaS 模式消亡”的市场担忧。针对近期资本市场担忧 AI 智能体将碘伏按座席收费模式的“SaaS 末日论(SaaSpocalypse)”,Benioff 在会上指出,行业并非首次面临此类危机,而企业级 SaaS 因集成 AI 智能体而变得更具护城河。
据 TechCrunch 报道,这一观点的抛出,被业界视为对底层大模型厂商越界行为的直接反击。本月早些时候,OpenAI 推出企业级智能体 Frontier 时展示了截然相反的路线图:OpenAI 意图掌控技术栈核心,而将提供核心业务数据的 SaaS 供应商降级为底层的系统记录引擎。这种路线分歧,正是触发本轮 SaaS 概念股抛售潮的核心诱因。
近期,Anthropic 宣布 Claude Code 能自动梳理 COBOL 依赖、生成文档并识别风险,引发市场对 IBM 主机业务受冲击的担忧,IBM 股价在当地时间本周一录得近26年最大单日跌幅,市值蒸发约310亿美元。
(@APPSO)






