混元Spatial-TTT框架评测:长序列空间智能流式推理新突破
本期编辑:@koki、@鲍勃
01 有话题的技术
1、通义实验室开源首个影视级 AI 配音多模态大模型 Fun-CineForge
通义实验室最近开源了一个很有意思的模型——Fun-CineForge,专门用于影视级多场景配音。它基于自研的 CosyVoice3 语音合成底层能力构建,输入一个无声视频片段、配音文本、角色属性和情感线索、时间信息以及参考语音,就能输出与画面高度对齐的合成语音。
这个模型最大的创新,是首次在配音任务中引入了时间模态。传统 TTS 模型只关心文本、声音或视觉信息,但影视配音有个很关键的维度——节奏。什么时候说话、什么时候停、角色切换的时机,这些信息直接影响配音的同步效果。时间模态就像一个强监督信号,告诉模型“在这个时间窗口内,哪个角色该说什么”,即便画面里看不到说话人的嘴,也能准确对齐。
为了实现这一点,Fun-CineForge 同时利用了四类信息:
- 视觉模态:学习唇部运动,理解面部表情;
- 文本模态:提供台词内容,描述角色属性和情感语气;
- 音频模态:作为模型预测目标;
- 时间模态:控制语音出现的时间,在对话场景指示说话人身份。
据官方数据,Fun-CineForge 在语音自然度、字错率、情感表达、音色相似度、唇形同步、时间对齐及指令遵循等指标上,均优于现有的开源配音模型。
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
(@通义实验室)
2、混元研究团队与清华大学共同发布 Spatial-TTT 框架,实现长序列空间智能流式推理
清华大学与混元研究团队提出了一个名为 Spatial-TTT 的框架,核心目标是解决视觉模型在超长视频流中构建 3D 空间记忆时的效率瓶颈。关键思路是采用测试时训练(Test-Time Training, TTT)机制,让模型权重本身变成一个可动态更新的结构化空间记忆。
几个关键技术演进:
- 测试时训练(TTT)机制:放弃固定权重推理,引入可更新的 Fast Weights 作为记忆载体。模型在推理过程中通过自我监督任务持续优化权重,实时捕获并组织视频流中的空间特征。
- 3D 时空卷积 TTT 层:在 TTT 层中集成 3D 卷积算子,显式建模几何对应关系与时间连续性,替代了传统 Transformer 中注意力机制随序列长度线性增长的问题。
- 空间预测机制:通过预测后续帧的空间结构来驱动权重更新,确保构建的 3D 空间记忆具备结构化特征。
Spatial-TTT 为具身智能和长视频分析提供了一种低功耗、高密度的记忆方案。核心突破在于解决了“空间证据”在超长流式输入下的存储与检索难题,让模型在持续运动中维持稳定的 3D 环境认知。
GitHub: https://github.com/THU-SI/Spatial-TTT
(@TencentHunyuan@X)
3、xAI 推出 Grok 文字转语音 API
Grok 的文字转语音(TTS)API 现已正式开放。据官方介绍,它旨在使用自然的人声和丰富的表达控制能力,为应用注入生命力。
( @xai@X)
4、IBM 开源 Granite-4.0-1b-speech 语音模型,支持多语言互译
IBM 开源了一款语音语言模型 Granite-4.0-1b-speech,采用 Apache 2.0 协议。它支持英语、法语、德语、西班牙语、葡萄牙语和日语六种语言的语音识别及双向翻译,同时具备英语到普通话的翻译能力。
该模型主要面向多语言自动语音识别(ASR)和双向自动语音翻译(AST)场景。需要注意的是,官方虽然支持将其他语言翻译成普通话,但并未将普通话列为输入语种,暂不支持中文语音的直接识别。
Huggingface: https://huggingface.co/ibm-granite/granite-4.0-1b-speech
(@橘鸦 Juya)
02 有亮点的产品
1、追觅戒指 Glow 正式发布!全球首创指尖 AI 心电监测
在 AWE 中国家电及消费电子博览会上,追觅科技正式发布了新一代旗舰智能硬件——追觅 AI 戒指 Glow。这款产品堪称全球首款指尖 AI 心电分析+心率血氧分析智能戒指,直接打破了传统健康穿戴设备的技术壁垒,开启了个性化指尖健康管理的新阶段。
戒指内置多种传感器,实现 24 小时不间断、高精度的心电、心率、血氧、体温等核心生理指标监测。背后依托的是千万级健康数据样本训练的自研健康 AI 大模型,再加上与清华大学联合研发的深度学习算法,能够为每位用户建立专属健康基线,精准捕捉身体细微变化。
发布会上,追觅全球 AI 硬件事业群总裁潘志东公布了价格:官方售价 1799 元,首发价 1499 元。他表示:“我们希望用亲民的定价,让专业级健康管理不再是少数人的专属,让 AI 科技真正惠及每一个人。”
(@雷锋网)
2、黄仁勋在 GTC 携手英伟达物理 AI 家族亮相
2026 年 GTC 开幕现场,那个永远穿着黑色皮夹克的男人——黄仁勋发表了演讲,并带着物理 AI 家族悉数登场。
英伟达宣布,NVIDIA 自动驾驶出租车(Robotaxi)平台再添四家新合作伙伴:比亚迪、现代、日产、吉利。这些厂商每年合计生产 1800 万辆汽车。加上之前的奔驰、丰田、通用等,未来支持 Robotaxi 的汽车数量将极为可观。英伟达还计划在多个城市把这些车辆接入运营网络。
另一个重要的变化是:传统的无线电塔将变成 NVIDIA Aerial AI RIM 智能基站,成为“Robotaxi 无线电塔”。届时基站能够理解交通状况,智能调整波束赋形,在最大化保真度的同时尽可能节省能源。
黄仁勋还提到,借助英伟达 Alpamayo,车辆现在具备推理能力,能在各种场景下安全、智能地行驶。车辆可以解释它的决策思考过程,并直接服从语音指令。比如你对车说:“嘿,奔驰,能开快一点吗?”车辆可以回答:“当然,我这就提速。”通过传统仿真与神经仿真相结合,系统生成海量合成数据,并大规模训练策略模型。
这次英伟达还打造了多款开源工具:Isaac Lab(用于在仿真中训练和评估机器人)、Newton(可扩展、GPU 加速的微分物理仿真引擎)、Cosmos 世界模型(用于神经仿真)、GR00T 开源机器人基础模型(用于机器人推理与动作生成)。
演讲最后,迪士尼《冰雪奇缘》的雪宝机器人登台亮相。目前迪士尼的机器人正在用 NVIDIA 仿真训练。黄仁勋说:“我个人最期待的机器人之一就是来自迪士尼的机器人。”
(@极客公园)
03 有态度的观点
1、初创公司首席产品官:不用 Vibe Coding 的员工“很可能不会继续留在公司”
金融科技初创公司 Ramp 的首席产品官 Geoff Charles 在播客节目「Behind the Craft」中发表了一个相当直白的观点:不使用 AI 辅助编程工具的员工正在落后于同事。
“如果你今年还不使用 Claude Code,无论你担任什么职位,你的表现很可能都不如公司里的其他人。”
Ramp 是一家估值 320 亿美元、专注于企业账单支付的 AI 金融科技公司。Charles 透露,目前公司 50% 的代码由 AI 生成,预计到今年 3 月这一比例将达到 80%。
Charles 将员工的 AI 使用能力划分为四个层级:
- L0:偶尔使用 ChatGPT,属于最低层级;
- L1:已构建自定义 GPT、有一定 Claude Code 使用经验;
- L2:熟练运用“Vibe Coding”构建应用、实现工作流自动化;
- L3:最高层级的“系统构建者”。
他直言,仍停留在 L0 的员工“很可能不会继续留在公司”,并补充道:“如果你没有自驱力,也没有成长心态,培训起来会非常非常困难。”
(@APPSO)




