混元Spatial-TTT框架评测：长序列空间智能流式推理新突破

2026-06-12阅读 0热度 0

人工智能

本期编辑：@koki、@鲍勃

01 有话题的技术

1、通义实验室开源首个影视级 AI 配音多模态大模型 Fun-CineForge

通义实验室最近开源了一个很有意思的模型——Fun-CineForge，专门用于影视级多场景配音。它基于自研的 CosyVoice3 语音合成底层能力构建，输入一个无声视频片段、配音文本、角色属性和情感线索、时间信息以及参考语音，就能输出与画面高度对齐的合成语音。

这个模型最大的创新，是首次在配音任务中引入了时间模态。传统 TTS 模型只关心文本、声音或视觉信息，但影视配音有个很关键的维度——节奏。什么时候说话、什么时候停、角色切换的时机，这些信息直接影响配音的同步效果。时间模态就像一个强监督信号，告诉模型“在这个时间窗口内，哪个角色该说什么”，即便画面里看不到说话人的嘴，也能准确对齐。

为了实现这一点，Fun-CineForge 同时利用了四类信息：

视觉模态：学习唇部运动，理解面部表情；
文本模态：提供台词内容，描述角色属性和情感语气；
音频模态：作为模型预测目标；
时间模态：控制语音出现的时间，在对话场景指示说话人身份。

据官方数据，Fun-CineForge 在语音自然度、字错率、情感表达、音色相似度、唇形同步、时间对齐及指令遵循等指标上，均优于现有的开源配音模型。

GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge

（@通义实验室）

2、混元研究团队与清华大学共同发布 Spatial-TTT 框架，实现长序列空间智能流式推理

清华大学与混元研究团队提出了一个名为 Spatial-TTT 的框架，核心目标是解决视觉模型在超长视频流中构建 3D 空间记忆时的效率瓶颈。关键思路是采用测试时训练（Test-Time Training, TTT）机制，让模型权重本身变成一个可动态更新的结构化空间记忆。

几个关键技术演进：

测试时训练（TTT）机制：放弃固定权重推理，引入可更新的 Fast Weights 作为记忆载体。模型在推理过程中通过自我监督任务持续优化权重，实时捕获并组织视频流中的空间特征。
3D 时空卷积 TTT 层：在 TTT 层中集成 3D 卷积算子，显式建模几何对应关系与时间连续性，替代了传统 Transformer 中注意力机制随序列长度线性增长的问题。
空间预测机制：通过预测后续帧的空间结构来驱动权重更新，确保构建的 3D 空间记忆具备结构化特征。

Spatial-TTT 为具身智能和长视频分析提供了一种低功耗、高密度的记忆方案。核心突破在于解决了“空间证据”在超长流式输入下的存储与检索难题，让模型在持续运动中维持稳定的 3D 环境认知。

GitHub: https://github.com/THU-SI/Spatial-TTT

(@TencentHunyuan@X)

3、xAI 推出 Grok 文字转语音 API

Grok 的文字转语音（TTS）API 现已正式开放。据官方介绍，它旨在使用自然的人声和丰富的表达控制能力，为应用注入生命力。

( @xai@X)

4、IBM 开源 Granite-4.0-1b-speech 语音模型，支持多语言互译

IBM 开源了一款语音语言模型 Granite-4.0-1b-speech，采用 Apache 2.0 协议。它支持英语、法语、德语、西班牙语、葡萄牙语和日语六种语言的语音识别及双向翻译，同时具备英语到普通话的翻译能力。

该模型主要面向多语言自动语音识别（ASR）和双向自动语音翻译（AST）场景。需要注意的是，官方虽然支持将其他语言翻译成普通话，但并未将普通话列为输入语种，暂不支持中文语音的直接识别。

Huggingface: https://huggingface.co/ibm-granite/granite-4.0-1b-speech

（@橘鸦 Juya）

02 有亮点的产品

1、追觅戒指 Glow 正式发布！全球首创指尖 AI 心电监测

在 AWE 中国家电及消费电子博览会上，追觅科技正式发布了新一代旗舰智能硬件——追觅 AI 戒指 Glow。这款产品堪称全球首款指尖 AI 心电分析+心率血氧分析智能戒指，直接打破了传统健康穿戴设备的技术壁垒，开启了个性化指尖健康管理的新阶段。

戒指内置多种传感器，实现 24 小时不间断、高精度的心电、心率、血氧、体温等核心生理指标监测。背后依托的是千万级健康数据样本训练的自研健康 AI 大模型，再加上与清华大学联合研发的深度学习算法，能够为每位用户建立专属健康基线，精准捕捉身体细微变化。

发布会上，追觅全球 AI 硬件事业群总裁潘志东公布了价格：官方售价 1799 元，首发价 1499 元。他表示：“我们希望用亲民的定价，让专业级健康管理不再是少数人的专属，让 AI 科技真正惠及每一个人。”

（@雷锋网）

2、黄仁勋在 GTC 携手英伟达物理 AI 家族亮相

2026 年 GTC 开幕现场，那个永远穿着黑色皮夹克的男人——黄仁勋发表了演讲，并带着物理 AI 家族悉数登场。

英伟达宣布，NVIDIA 自动驾驶出租车（Robotaxi）平台再添四家新合作伙伴：比亚迪、现代、日产、吉利。这些厂商每年合计生产 1800 万辆汽车。加上之前的奔驰、丰田、通用等，未来支持 Robotaxi 的汽车数量将极为可观。英伟达还计划在多个城市把这些车辆接入运营网络。

另一个重要的变化是：传统的无线电塔将变成 NVIDIA Aerial AI RIM 智能基站，成为“Robotaxi 无线电塔”。届时基站能够理解交通状况，智能调整波束赋形，在最大化保真度的同时尽可能节省能源。

黄仁勋还提到，借助英伟达 Alpamayo，车辆现在具备推理能力，能在各种场景下安全、智能地行驶。车辆可以解释它的决策思考过程，并直接服从语音指令。比如你对车说：“嘿，奔驰，能开快一点吗？”车辆可以回答：“当然，我这就提速。”通过传统仿真与神经仿真相结合，系统生成海量合成数据，并大规模训练策略模型。

这次英伟达还打造了多款开源工具：Isaac Lab（用于在仿真中训练和评估机器人）、Newton（可扩展、GPU 加速的微分物理仿真引擎）、Cosmos 世界模型（用于神经仿真）、GR00T 开源机器人基础模型（用于机器人推理与动作生成）。

演讲最后，迪士尼《冰雪奇缘》的雪宝机器人登台亮相。目前迪士尼的机器人正在用 NVIDIA 仿真训练。黄仁勋说：“我个人最期待的机器人之一就是来自迪士尼的机器人。”

（@极客公园）

03 有态度的观点

1、初创公司首席产品官：不用 Vibe Coding 的员工“很可能不会继续留在公司”

金融科技初创公司 Ramp 的首席产品官 Geoff Charles 在播客节目「Behind the Craft」中发表了一个相当直白的观点：不使用 AI 辅助编程工具的员工正在落后于同事。

“如果你今年还不使用 Claude Code，无论你担任什么职位，你的表现很可能都不如公司里的其他人。”

Ramp 是一家估值 320 亿美元、专注于企业账单支付的 AI 金融科技公司。Charles 透露，目前公司 50% 的代码由 AI 生成，预计到今年 3 月这一比例将达到 80%。

Charles 将员工的 AI 使用能力划分为四个层级：

L0：偶尔使用 ChatGPT，属于最低层级；
L1：已构建自定义 GPT、有一定 Claude Code 使用经验；
L2：熟练运用“Vibe Coding”构建应用、实现工作流自动化；
L3：最高层级的“系统构建者”。

他直言，仍停留在 L0 的员工“很可能不会继续留在公司”，并补充道：“如果你没有自驱力，也没有成长心态，培训起来会非常非常困难。”

(@APPSO)

混元Spatial-TTT框架评测：长序列空间智能流式推理新突破

01 有话题的技术

02 有亮点的产品

03 有态度的观点

相关阅读

最新教程

最新资讯