Granola 获 1.25 亿美元融资转型企业级 AI，YC 初创用 AI 语音访谈降本 90%

2026-06-14阅读 0热度 0

人工智能

说实话，在RTE这个圈子里，每天的信息流就像开了倍速一样。今天这篇日报聊到的技术突破和产品落地，有几个地方确实让人眼前一亮，值得花几分钟琢磨一下。

01 有话题的技术

1、谷歌推出 Lyria 3 Pro 音乐模型，最长生成三分钟专业音轨

Google 在AI音乐赛道上的动作越来越具象了。新一代Lyria 3及Lyria 3 Pro模型已经通过Gemini API和Google AI Studio向公众开放公测。这次升级的核心看点，已经从“能不能生成”转向了“生成得有多专业”。

具体来说，几个关键点值得关注：

双版本覆盖不同场景：lyria-3-pro-preview主打工作室级音质，可以一口气生成最长3分钟的全曲；而lyria-3-clip-preview则针对高并发场景优化，30秒的短片段生成很适合社交媒体和循环素材的快速产出。
多模态Image-to-Music输入：不再局限于文本提示词，模型现在可以直接“读”图——根据图片传递的视觉情绪、风格和氛围来指导音乐生成。
高精度结构化控制：这是专业创作者比较关心的点。新引入的「作曲模式」（Composer mode）允许开发者对引子、主歌、桥段等不同部分独立设定时间、强度和描述。此外，节奏速度和调性等参数也能精确调节。
时间对齐歌词：可以在提示词中明确定义歌词在音轨中的具体起止时间点，实现词曲的精确同步。
多模态端到端工作流：支持与Gemini 3 Flash联动：Gemini先分析视频内容自动生成描述性提示词，Lyria 3再实时创作匹配的背景音乐。这个流程打通，对视频内容创作者来说确实是个实用工具。

( @google.blog)

2、美团龙猫团队开源 LongCat-Next 离散自回归多模态模型

美团龙猫团队开源了LongCat-Next，一个原生多模态模型。参数总量68.5B，激活参数只有3B，走的是高效的MoE路线。其核心是引入了DiNA（离散原生自回归范式），把文本、视觉和音频统一在单一自回归目标下，同时提出dNaViT作为任意分辨率的统一视觉接口。

这款模型在多模态基准测试中表现不错，尤其值得注意的是它能在28倍压缩比下维持生成质量，文本渲染能力尤其突出。此外，它还具备高级语音理解、低延迟语音对话以及可定制的声音克隆能力——一句话，开源社区又拿到了一件趁手的兵器。

Github 链接：https://github.com/meituan-longcat/LongCat-Next

HuggingFace 链接：https://huggingface.co/meituan-longcat/LongCat-Next

（@橘鸦 Juya）

3、Tether 旗下 BrainWhisperer 脑信号解码准确率达 98.3%

Tether 旗下的BrainWhisperer项目最近公布的测试结果有点意思：脑信号转文字准确率达到98.3%。在Brain-to-Text '25 Kaggle竞赛的466支队伍中，它以1.78%的词错误率（WER）排名第四。

这套系统基于OpenAI Whisper模型构建，配合LoRA微调技术，通过多模型集成管道将大脑皮层电信号解码为文字。Tether也同步在推进跨个体信号解码框架以及非侵入性BCI设备的研发，并发布了基于QVAC平台的Brain OS开源脑操作系统。脑机接口这个领域，正在从实验室加速走向工程化落地。

（@深潮 TechFlow）

02 有亮点的产品

1、智谱多模态大模型「上车」迈巴赫

昨天，梅赛德斯-奔驰官宣了一个有意思的合作：与清华大学、智谱合作开发的端侧多模态大模型技术将落地新一代S级轿车。

新款梅赛德斯-迈巴赫S级轿车将成为首批搭载该技术的车型。其后排娱乐系统深度融合了自然语言处理与视觉、音频等多模态理解和生成能力，结合车内摄像头等感知硬件，为后排乘客提供更智能、更人性化的沉浸式交互体验。

新势力的车机习惯往往让人反复喊唤醒词，迈巴赫则选了一条更“无感”的路径。

按照官方说法，这套系统不需要联网，也不需要你开口说话。系统单靠摄像头就能读懂后排乘客的手势和情绪状态，然后默默地把空调、遮阳帘调整到合适的位置。这技术落地的场景感很强——真正的智能，有时候就是不说话的默契。

(@APPSO)

2、DiligenceSquared 推出 M&A 尽职调查智能体

YC 2025秋季营的初创公司DiligenceSquared利用AI语音智能体自动化并购（M&A）中的商业尽职调查流程。做法是：让AI自主访谈企业客户，然后合成深度报告。效果很直接——原本由顶级咨询公司收取的50万到100万美元服务费被压到了5万美元，让PE机构可以更早、更低成本地做调研覆盖。

AI语音访谈智能体：采用类似Keplar与Outset的语音交互模型，自主与目标公司的企业客户及C-suite高管进行深度访谈，提取一手市场反馈。
10倍级的成本压缩：用AI承担基础调研与数据合成工作，把单项尽职调查项目的费用从传统咨询模式（麦肯锡、BCG等）的百万美元级别压缩到了5万美元。
长篇报告合成与校验：系统能将访谈见解与专有市场数据整合，生成长达200页的专业报告，并引入高级人类顾问（Human-in-the-loop）对结论的商业逻辑进行二次验证。
前置化调研决策：价格降下来后，PE机构就可以把原来属于交易后期的深度调研前置到接触早期——在没建立高确信度之前，先低成本试错。
资深行业Know-how注入：创始团队由前Blackstone高级合伙人与BCG专家组成，确保AI提取的指标符合PE行业的硬核风控需求。

(@TechCrunch)

3、Granola 获 1.25 亿美元 C 轮融资：估值达 15 亿美元

Granola宣布完成1.25亿美元C轮融资，由Index Ventures领投，估值升至15亿美元。这家公司正在经历一次核心战略转型——从「个人AI会议笔记」变身为「企业级AI上下文平台」。通过发布全新API接口与Spaces协作框架，把对话转录数据转化为可供Claude、GPT、Gemini等主流模型直接调用的结构化企业知识库。

开放双轨制API：推出Personal API（面向Business/Enterprise计划个人用户）与Enterprise API（面向系统管理员）。支持第三方应用编程访问会议上下文，打破会议数据孤岛。
支持MCP：更新模型上下文协议接口，允许Claude、ChatGPT、Cursor等外部AI工具根据文件夹权限直接读取、引用并理解用户存储在Granola内的会议背景。
Spaces权限架构：引入Team Space与My Notes隔离机制。支持文件夹按公司或个人维度自动过滤，以及无限层级嵌套，解决大规模团队协作下的数据归档与权限穿透问题。
企业级合规与治理套件：集成SSO登录、SCIM成员同步、细粒度访问控制以及合规同意管理。新增定时转录删除功能，支持从转录文本中选择性抹除敏感数据。
多模型集成与连接器生态：内置Gradiant Chat，底层聚合最新Claude、GPT及Gemini模型。目前已成为Figma Make、Replit、Manus、v0、Bolt.new等开发工具的官方数据连接器。

(@TechCrunch)

03 有态度的观点

1、经典科幻小说《雪崩》作者：我对头戴设备的判断是错的

昨天，经典科幻小说《雪崩》（Snow Crash）作者Neal Stephenson发文，就Meta关闭元宇宙项目一事发表评论。他曾在MR头戴设备公司Magic Leap任职，并曾坚定地追问同事和外界：“你真的认为二十年后，每个人还会整天盯着手里的小矩形屏幕吗？”当年他以为答案显而易见：不会。

但在这篇最新的文章里，他直接推翻了这一判断。二十年后，每个人依然会盯着手持的矩形屏幕——至少在唯一的替代方案是在脸上戴东西的前提下，是这样。 Stephenson进一步指出，试图把头戴设备做得越来越像普通眼镜，并不能解决接受度问题，反而带来了新的信任危机。

Google Glass问世后几乎立刻催生了“glasshole”（眼镜傻瓜）一词，Meta外形接近普通眼镜的智能眼镜产品同样遭遇了类似的社会反弹。他认为根源在于透明度的缺失：当有人盯着手机时，旁人至少能判断出他在看手机；而面对头戴设备的佩戴者，没有人知道对方是否正在注视自己，摄像头是否正在录像。这种不确定性让设备天然带有侵入感，「所以它令人不安」。

( @APPSO)

Granola 获 1.25 亿美元融资转型企业级 AI，YC 初创用 AI 语音访谈降本 90%

01 有话题的技术

02 有亮点的产品

03 有态度的观点

相关阅读

最新教程

最新资讯