MIAOYUN | 每周AI新鲜事儿 260313

2026-04-27阅读 296热度 296

人工智能

本周AI领域热点频出：大模型、智能体与工具技术全景扫描

这周的AI圈可谓精彩纷呈。大模型领域接连放出重磅消息：从谢赛宁团队的世界模型到Google的多模态嵌入，从NVIDIA的“龙虾”杀手到VAST的3D生成革命，每个发布都在重新定义技术边界。AI Agent战场更是硝烟弥漫，小米、智谱、腾讯、微软、阶跃星辰纷纷亮出自家“龙虾”产品，让智能体真正走向实用。工具与技术层面，港大的CLI改造神器、腾讯混元的功能性记忆范式、Karpathy的自我迭代智能体，都在解决着实际应用中的核心痛点。市场层面，追觅跨界造芯、工信部发布安全指南，预示着行业正从技术探索走向规范发展。接下来，就让我们系统梳理这些值得关注的新动态。

AI 大模型

谢赛宁团队开源首个多人视频世界模型「Solaris」

3月7日，谢赛宁团队带来了首个开源的多人视频世界模型「Solaris」。有意思的是，团队选择了《我的世界》作为实验平台，让模型能够在给定各玩家历史观察与动作的条件下，联合预测多名玩家保持一致的第一视角未来画面。为了训练这个模型，他们自主构建了名为SolarisEngine的多人数据采集系统，最终收获了包含9240个任务回合、总计1264万帧的多人Minecraft训练数据集，覆盖建筑、战斗等四大类任务。技术上，团队基于MatrixGame 2.0进行了三项关键改进以支持多人模式。在Solaris Eval数据集上的测试结果显示，「Solaris」在视觉效果和多数定量指标上都优于现有多人世界模型及无单人预训练的变体，尤其在建筑、场景一致性等复杂场景中表现突出。目前，相关模型、代码、数据集均已开源。

参考：谢赛宁也玩MC？开源全新世界模型生成多人一致的游戏视角

小红书推出图像编辑模型「FireRed-Image-Edit v1.1」

距离1.0版本发布不到一个月，小红书在3月8日就推出了升级版的图像编辑模型「FireRed-Image-Edit v1.1」。这次更新在ID一致性编辑、多元素融合、人像美妆、字体风格参考、老照片修复等方面都有明显提升。该模型采用了骨干无关的架构设计，可以轻松迁移到任意文生图基础模型上。工程优化方面更是做到了极致：开放LoRA训练生态、进行极限速度优化、集成智能Agent工作流，仅需30GB显存就能在4.5秒内完成端到端生成，并支持全平台部署。团队还提供了makeuplora和covercraftlora两类自主创作LoRA，在多项榜单中达到了SOTA水平。相关代码、技术报告、模型参数等已全部开源，用户可通过指定链接亲身体验。

参考：史诗级更新！小红书图像编辑FireRed-Image-Edit v1.1发布：OOTD元素融合、人像一致性大幅提升，社区友好拉满

首个视觉先验统一离散扩散模型「Muddit」发布，打通文生图与图生文

3月10日，颜水成团队在ICLR'2026上发布了首个基于视觉先验的统一离散扩散模型「Muddit」。这个模型的独特之处在于它打破了行业长期以来的“语言中心论”，转而以视觉先验为基础，采用全离散扩散框架，将文本和图像都转化为离散token，通过共享的MM-DiT骨干网络统一处理文生图、图生文及视觉问答任务。虽然参数仅有1B，但在多项基准测试中表现优异。更值得一提的是，依托视觉先验和统一范式，模型用少量数据就实现了高效训练，成功将多模态模型研发从语言优先转向视觉优先，为下一代多模态基础模型提供了全新思路。

参考：从视觉出发统一多模态！颜水成团队最新研究：不再把图像编解码器塞进LLM｜ICLR'2026

Google发布首个基于Gemini架构的原生多模态嵌入模型「Gemini Embedding 2」

3月11日，Google发布了首个基于Gemini架构的原生多模态嵌入模型「Gemini Embedding 2」，现已通过Gemini API和Vertex AI向开发者开放预览。这个模型能够将文本、图像、视频等多类数据映射到统一嵌入空间，还支持交错输入。它采用了MRL技术，可以动态压缩向量维度，且对不同类型输入都有明确的支持范围，能大幅简化多模态AI系统架构。在多语言、代码语义理解、跨模态检索等多项基准测试中表现领先，早期合作方的实测数据显示，该模型能提升搜索精准度，实现70%延迟降幅，文本-图像/视频语义相似度得分近乎翻倍。由于显著提升了企业工程效率、打破了模态孤岛，该模型被开发者社区认为是多模态RAG的新行业基准。

参考：定义RAG新基准？谷歌发布 Gemini Embedding 2：首个原生多模态嵌入模型，延迟骤降70%

NVIDIA发布开源AI模型「Nemotron 3 Super」成OpenClaw最强开源模型

3月12日，NVIDIA推出了开源AI模型「Nemotron 3 Super」，这款专为大尺度AI智能体打造的模型拥有1200亿参数和100万token上下文窗口，采用创新的Mamba-MoE混合架构，实现了推理速度和吞吐量的大幅提升。在OpenClaw任务中取得了85.6%的成功率，比肩Claude Opus 4.6等顶尖模型，成功破解了多Agent应用的核心瓶颈。该模型经过25万亿Token的分阶段训练，在各基准测试中表现优异，工具调用能力尤其突出。相关数据与训练方法已开源，多家企业机构已经接入。NVIDIA还宣布计划五年投入260亿美元打造开源模型生态系统，并正在研发面向企业、内置安全隐私工具的开源AI智能体平台「NemoClaw」，全面布局企业级OpenClaw市场。

参考：老黄杀入OpenClaw战场！最强开源「龙虾」模型直逼Opus 4.6

VAST推出的AI 3D大模型「Tripo P1.0」，2秒生成专业级3D资产

3月12日消息，近期VAST首席科学家曹炎培揭秘了公司最新上线的Smart Mesh功能及背后的AI 3D大模型「Tripo P1.0」。这个模型重构了AI 3D生成的底层算法范式，首次在原生三维空间实现概率生成，采用整体建模方式，能在2秒内生成拓扑干净、布线稳定的专业级3D资产，速度较市面方案提升百倍以上，有效解决了复杂拓扑结构生成难题。生成的整体效果能达到三五年经验设计师90%的水平，而且资产为原生三角网格，可以直接投入使用。同时透露VAST近期完成了5000万美元A轮融资，未来还将攻坚3D模型原生动态和可交互性技术难题。

参考：对话VAST曹炎培：2秒才是3D生成本该有的速度

AI Agent

小米基于MiMo模型打造的移动端AI Agent产品「Xiaomi miclaw」开启邀测

3月6日，小米基于MiMo大模型打造的移动端AI Agent测试产品「Xiaomi miclaw」开启了小范围邀请制封测。这款产品主要聚焦验证大模型在小米“人车家全生态”的系统级执行能力，拥有系统底层、个人上下文理解、生态互联、自进化四大核心能力。它能以系统应用身份调用50+系统级工具，通过推理-执行引擎自主完成操作，还可基于用户授权理解个人使用习惯并保障数据安全。同时接入了小米IoT生态并开放第三方接入通道，更具备文件级记忆等元能力实现自我成长。产品还展示了欢迎回家、体重控制等多个实际应用场景，真正让手机成为AI的一部分。

参考：Xiaomi miclaw，小米移动端 Agent 开启小范围封测

智谱正式上线国内首个一键安装的本地版OpenClaw「AutoClaw」

3月10日，智谱正式上线了国内首个一键安装的本地版OpenClaw「AutoClaw」（昵称“澳龙”），支持macOS和Windows系统。产品预置了50+覆盖多高频场景的热门Skills，可以一键接入飞书等即时通讯工具，还开放模型接入并提供免费额度与多梯度付费积分包。这款产品内置了专为OpenClaw场景优化的内测模型Pony-Alpha-2，工具调用稳定、响应迅速，同时集成了AutoGLM Browser-Use能力，能完成复杂的浏览器操作。它的出现大幅降低了OpenClaw使用门槛，推动了“人人养龙虾”的AI平权愿景，用户可通过指定链接下载体验。

参考：今天，给每台电脑都装上龙虾

腾讯推出具备持续记忆与实际任务执行能力的“龙虾特工队”AI Agent产品矩阵

3月10日，腾讯正式推出了具备持续记忆与实际任务执行能力的“龙虾特工队”AI Agent产品矩阵，为个人、开发者、企业级用户分别打造了专属的“养虾”方案。个人用户可以选择零配置下载即用的「WorkBuddy」和内测中可微信远程操控的「QClaw」；开发者与企业用户则有腾讯云「Lighthouse」、智能体开发平台「ADP」、腾讯云桌面等云端解决方案可选。该矩阵还上线了包含1.3万个本土化技能的SkillHub技能社区，实现了与企业微信、腾讯乐享知识库的深度融合。同时通过腾讯电脑管家的“龙虾管家”隔离房和腾讯云的AI Agent安全中心，分别为本地和云端使用场景做好安全防护，全方位降低AI使用门槛，让AI真正融入各类工作流。

参考：腾讯全系“龙虾”产品矩阵来了，个人可直接调用

微软推出AI智能体「Copilot Cowork」，接入Anthropic的Claude模型

3月10日，微软推出了AI智能体「Copilot Cowork」，这款工具能够全面接管Excel、Word、PPT和Outlook。值得注意的是，它接入了Anthropic的Claude模型作为执行层核心，而非OpenAI的GPT，这体现了微软在企业AI领域的“多模型”布局策略。该工具可以在Microsoft 365生态后台自主运行，能完成日程整理、会议资料准备、企业调研、产品发布规划等全流程办公任务，用户仍然可以把控关键节点。它被纳入30美元/用户/月的M365 Copilot企业版，微软还将上线相关的智能体管理平台和整合套件。不过目前该工具暂不支持本地使用、缺乏第三方原生集成。数据显示，微软Copilot付费席位增长显著，《财富》500强中九成企业已启用，为4.5亿M365用户带来了可执行工作的“数字同事”，推动AI从办公辅助走向实际执行。

参考：微软Copilot Cowork接入Claude，4.5亿打工人迎来“数字同事”

腾讯云旗下AI原生桌面智能体工作台「WorkBuddy」新增微信一键直连功能

3月12日，腾讯云旗下AI原生桌面智能体工作台「WorkBuddy」（腾讯版小龙虾）迎来重要更新，新增了微信一键直连功能。用户只需三步即可完成配置，实现微信远程遥控电脑执行查资料、处理文件等操作，而且全程本地运行保障了隐私安全。同时优化了企业微信接入方式，支持WebSocket长链接且断连自动重连。还新增了自动化任务执行和监控追踪能力，可以实现日报周报生成、信息抓取等工作的自动化运行，能追踪任务进度并自动推送PDF等交付物。这些更新大幅降低了“养虾”门槛，个人和企业用户均可下载体验，目前还能限时免费领取5000 Credits。

参考：腾讯自研虾再进化！一键微信直连、自动化定时任务，养虾门槛又降！

阶跃星辰推出基于OpenClaw打造的云端AI助手「StepClaw」

3月12日，阶跃星辰推出了基于OpenClaw打造的云端AI助手「StepClaw」（阶跃龙虾）。这款工具可以在阶跃AI APP一键部署调用，无需额外配置电脑，配备双核CPU、4GB内存和40G存储空间，能流畅执行复杂任务且有长期记忆能力，7×24小时云端在线。其搭载的Step 3.5 Flash模型登顶OpenClaw调用量月榜，还集成了自研搜索工具和丰富技能库。目前StepClaw开放50000个免费一键部署体验名额，限时免费一个月，0成本体验可享5000万模型Tokens、云服务器和存储全包权益，仅需三步即可完成配置。现阶段可在阶跃AI APP使用，3月13日其网页版也将支持部署和使用，名额有限先到先得。

参考：阶跃AI 能一键部署 OpenClaw了！5 万个免费体验名额，先到先得

AI 工具

港大开源「CLI-Anything」，一行命令让软件变身AI Agent原生工具

3月10日，港大HKUDS团队开源了「CLI-Anything」项目，这个项目针对多数专业软件无适配CLI、AI Agent仅能低效操作的痛点，可以通过一行命令为各类开源软件生成生产级CLI，以CLI为桥梁让AI Agent无损调用真实软件功能，刚开源便获得了GitHub 1.4K Star。项目具备7阶段自动化生成CLI、直连真实软件无妥协、纯命令行告别脆弱UI自动化、结构化输出适配Agent、9款软件1436项测试100%通过等核心亮点，上手简单且在文档生成、3D渲染等场景已有实际应用，适用范围覆盖开源项目、AI/ML流水线、数据分析等多类软件。团队还表示将进一步拓展其适配范围与集成能力，为Agent时代的软件使用提供了全新方法论。

参考：港大刚刚开源了 CLI-Anything！一个命令让任意软件秒变 AI Agent 原生工具！

杰创智能发布业内首个企业级“龙虾云桌面”「NexClaw View」

3月12日，杰创智能发布了业内首个企业级“龙虾云桌面”「NexClaw View」，该产品由NexClaw企业级AI智能体平台与常青桌面云产品深度融合而成。针对OpenClaw在企业使用中存在的安装复杂、安全风险、成本较高、环境易丢失等痛点，它内置了文档处理、数据分析等多种办公场景技能包，具备四层安全防护体系、本地推理数据不出域、云桌面架构降本、自带备份恢复等核心优势，支持私有化部署与跨终端使用，为企业提供安全可控、开箱即用的AI智能体解决方案。

参考：杰创智能重磅发布！首发亮相，企业级“龙虾云桌面” NexClaw View

技术突破

腾讯混元发布技术报告提出「HY-WU」（无相）功能性记忆新范式

3月6日，腾讯混元发布技术报告提出了「HY-WU」（无相）功能性记忆新范式，这一范式打破了传统静态权重局限，通过推理时实时生成个性化参数实现模型动态“换脑”，从根源上解决了灾难性遗忘、性能跷跷板等问题，兼具端到端训练、部署灵活等实用优势。将该范式应用于800亿参数的图像编辑模型后，在个性化场景表现突出，严苛评测中人类评价比肩闭源旗舰，多项权威自动化榜单斩获开源模型第一，且普适性强、遵循规模法则。团队还围绕检索与功能记忆协同、跨模态通用等六大方向，描绘了功能性神经记忆核心的未来AI路线图，为大模型提升灵活性与智能性奠定了基础。

参考：新范式！腾讯混元提出HY-WU(无相)，让模型实时生成参数“换脑”

Karpathy开源「autoresearch」，单GPU运行自我迭代AI智能体

3月8日，Karpathy推出并开源了「autoresearch」项目，将自我迭代智能体部署在单个GPU上，打造出AI自主进行LLM研究实验的全新范式。该项目以极简大模型训练框架nanochat为基础，把其训练代码简化为单GPU、630行左右的版本，由人类迭代提示词（.md文件），AI智能体自主迭代训练代码（.py文件）。智能体会在夜间自动修改代码、训练模型5分钟并验证性能，保留有效改进、丢弃无效修改，还会生成完整实验记录。这一模式让人类聚焦研究系统设计、AI负责实验执行，也让未来AI研究竞争可能转向“研究组织代码”。轻量的nanochat也成为LLM相关教学、实验的理想起点，其训练耗时也已大幅缩短。

参考：刚刚，Karpathy惊呼「后AGI」！AI通宵狂改110次代码，他去蒸桑拿

腾讯混元开源业界首个面向世界模型的强化学习后训练框架「WorldCompass」

3月10日，腾讯混元3D团队开源了业界首个面向世界模型的强化学习后训练框架「WorldCompass」，作为混元世界模型1.5的官方扩展模块，它针对现有生成式世界模型依赖像素级监督、复杂动作指令执行差、长时序交互画质崩坏等痛点，通过切片级采样、3D奖励函数、高效RL优化算法三大核心创新，引入显式奖励对预训练模型进行微调。该框架在WorldPlay等模型上验证有效，使复杂组合动作交互准确率从25%提升至55%，基础动作准确率提升约10%，在斯坦福WorldScore基准中表现优异。这标志着世界模型从“预训练时代”迈入“RL精细化调优时代”，相关代码、模型细节及技术报告已开源。

参考：混元世界模型再进化：开源首个面向世界模型的强化学习后训练框架WorldCompass

市场动态

追觅发布芯片品牌芯际穿越「NXMIND」，布局AI时代下一代AI计算赛道

3月11日，追觅发布了芯片品牌芯际穿越「NXMIND」，布局AI时代下一代AI计算赛道，推出了涵盖多领域的算力产品矩阵。这包括采用自研NPU架构、GPU性能强悍的手机芯片「赤霄01」；2nm制程、算力2000TOPS且能支撑L4级自动驾驶的舱驾一体智驾芯片；已量产、为行业集成度最高SoC的天穹系列泛机器人芯片。还发布了由200万颗算力卫星组成、卫星可靠性和寿命达行业2倍的太空算力中心，以及算力1.5PFLOPS、可本地调试百亿参数大模型的个人超级AI电脑，其中瑶台系列自研太空算力盒将于近期发射开展在轨验证。芯际穿越负责人傅海洋表示，时代和赛道的变革让算力领域定义权易手，未来会有更多中国芯实现超越。

参考：刚刚，追觅宣布造芯！2nm智驾芯片算力2000TOPS，手机芯片、机器人芯片都来了

工信部发布OpenClaw“龙虾”安全使用指南，明确“六要六不要”

3月12日，工信部针对OpenClaw（“龙虾”）开源智能体，结合其智能办公、开发运维、个人助手、金融交易四大典型应用场景的不同安全风险（如供应链攻击、信息泄露、账户被接管等）给出了对应的应对策略，并发布了安全使用的“六要六不要”建议。这些建议涵盖使用官方最新版本、严控互联网暴露面、坚持最小权限原则、谨慎使用技能市场、防范社会工程学攻击和浏览器劫持、建立长效防护机制六大方面，同时还给出了部分安全基线及配置参考。

参考：工信部：使用“龙虾”“六要六不要”！