Granola 获 1.25 亿美元融资转型企业级 AI,YC 初创用 AI 语音访谈降本 90%

2026-06-14阅读 0热度 0
人工智能

说实话,在RTE这个圈子里,每天的信息流就像开了倍速一样。今天这篇日报聊到的技术突破和产品落地,有几个地方确实让人眼前一亮,值得花几分钟琢磨一下。

01 有话题的技术

1、谷歌推出 Lyria 3 Pro 音乐模型,最长生成三分钟专业音轨

Google 在AI音乐赛道上的动作越来越具象了。新一代Lyria 3及Lyria 3 Pro模型已经通过Gemini API和Google AI Studio向公众开放公测。这次升级的核心看点,已经从“能不能生成”转向了“生成得有多专业”。

具体来说,几个关键点值得关注:

  • 双版本覆盖不同场景lyria-3-pro-preview主打工作室级音质,可以一口气生成最长3分钟的全曲;而lyria-3-clip-preview则针对高并发场景优化,30秒的短片段生成很适合社交媒体和循环素材的快速产出。
  • 多模态Image-to-Music输入:不再局限于文本提示词,模型现在可以直接“读”图——根据图片传递的视觉情绪、风格和氛围来指导音乐生成。
  • 高精度结构化控制:这是专业创作者比较关心的点。新引入的「作曲模式」(Composer mode)允许开发者对引子、主歌、桥段等不同部分独立设定时间、强度和描述。此外,节奏速度和调性等参数也能精确调节。
  • 时间对齐歌词:可以在提示词中明确定义歌词在音轨中的具体起止时间点,实现词曲的精确同步。
  • 多模态端到端工作流:支持与Gemini 3 Flash联动:Gemini先分析视频内容自动生成描述性提示词,Lyria 3再实时创作匹配的背景音乐。这个流程打通,对视频内容创作者来说确实是个实用工具。

( @google.blog)

2、美团龙猫团队开源 LongCat-Next 离散自回归多模态模型

美团龙猫团队开源了LongCat-Next,一个原生多模态模型。参数总量68.5B,激活参数只有3B,走的是高效的MoE路线。其核心是引入了DiNA(离散原生自回归范式),把文本、视觉和音频统一在单一自回归目标下,同时提出dNaViT作为任意分辨率的统一视觉接口。

这款模型在多模态基准测试中表现不错,尤其值得注意的是它能在28倍压缩比下维持生成质量,文本渲染能力尤其突出。此外,它还具备高级语音理解、低延迟语音对话以及可定制的声音克隆能力——一句话,开源社区又拿到了一件趁手的兵器。

Github 链接:https://github.com/meituan-longcat/LongCat-Next

HuggingFace 链接:https://huggingface.co/meituan-longcat/LongCat-Next

(@橘鸦 Juya)

3、Tether 旗下 BrainWhisperer 脑信号解码准确率达 98.3%

Tether 旗下的BrainWhisperer项目最近公布的测试结果有点意思:脑信号转文字准确率达到98.3%。在Brain-to-Text '25 Kaggle竞赛的466支队伍中,它以1.78%的词错误率(WER)排名第四

这套系统基于OpenAI Whisper模型构建,配合LoRA微调技术,通过多模型集成管道将大脑皮层电信号解码为文字。Tether也同步在推进跨个体信号解码框架以及非侵入性BCI设备的研发,并发布了基于QVAC平台的Brain OS开源脑操作系统。脑机接口这个领域,正在从实验室加速走向工程化落地。

(@深潮 TechFlow)

02 有亮点的产品

1、智谱多模态大模型「上车」迈巴赫

昨天,梅赛德斯-奔驰官宣了一个有意思的合作:与清华大学、智谱合作开发的端侧多模态大模型技术将落地新一代S级轿车

新款梅赛德斯-迈巴赫S级轿车将成为首批搭载该技术的车型。其后排娱乐系统深度融合了自然语言处理与视觉、音频等多模态理解和生成能力,结合车内摄像头等感知硬件,为后排乘客提供更智能、更人性化的沉浸式交互体验。

新势力的车机习惯往往让人反复喊唤醒词,迈巴赫则选了一条更“无感”的路径。

按照官方说法,这套系统不需要联网,也不需要你开口说话。系统单靠摄像头就能读懂后排乘客的手势和情绪状态,然后默默地把空调、遮阳帘调整到合适的位置。这技术落地的场景感很强——真正的智能,有时候就是不说话的默契。

(@APPSO)

2、DiligenceSquared 推出 M&A 尽职调查智能体

YC 2025秋季营的初创公司DiligenceSquared利用AI语音智能体自动化并购(M&A)中的商业尽职调查流程。做法是:让AI自主访谈企业客户,然后合成深度报告。效果很直接——原本由顶级咨询公司收取的50万到100万美元服务费被压到了5万美元,让PE机构可以更早、更低成本地做调研覆盖。

  • AI语音访谈智能体:采用类似Keplar与Outset的语音交互模型,自主与目标公司的企业客户及C-suite高管进行深度访谈,提取一手市场反馈。
  • 10倍级的成本压缩:用AI承担基础调研与数据合成工作,把单项尽职调查项目的费用从传统咨询模式(麦肯锡、BCG等)的百万美元级别压缩到了5万美元。
  • 长篇报告合成与校验:系统能将访谈见解与专有市场数据整合,生成长达200页的专业报告,并引入高级人类顾问(Human-in-the-loop)对结论的商业逻辑进行二次验证。
  • 前置化调研决策:价格降下来后,PE机构就可以把原来属于交易后期的深度调研前置到接触早期——在没建立高确信度之前,先低成本试错。
  • 资深行业Know-how注入:创始团队由前Blackstone高级合伙人与BCG专家组成,确保AI提取的指标符合PE行业的硬核风控需求。

(@TechCrunch)

3、Granola 获 1.25 亿美元 C 轮融资:估值达 15 亿美元

Granola宣布完成1.25亿美元C轮融资,由Index Ventures领投,估值升至15亿美元。这家公司正在经历一次核心战略转型——从「个人AI会议笔记」变身为「企业级AI上下文平台」。通过发布全新API接口与Spaces协作框架,把对话转录数据转化为可供Claude、GPT、Gemini等主流模型直接调用的结构化企业知识库。

  • 开放双轨制API:推出Personal API(面向Business/Enterprise计划个人用户)与Enterprise API(面向系统管理员)。支持第三方应用编程访问会议上下文,打破会议数据孤岛。
  • 支持MCP:更新模型上下文协议接口,允许Claude、ChatGPT、Cursor等外部AI工具根据文件夹权限直接读取、引用并理解用户存储在Granola内的会议背景。
  • Spaces权限架构:引入Team Space与My Notes隔离机制。支持文件夹按公司或个人维度自动过滤,以及无限层级嵌套,解决大规模团队协作下的数据归档与权限穿透问题。
  • 企业级合规与治理套件:集成SSO登录、SCIM成员同步、细粒度访问控制以及合规同意管理。新增定时转录删除功能,支持从转录文本中选择性抹除敏感数据。
  • 多模型集成与连接器生态:内置Gradiant Chat,底层聚合最新Claude、GPT及Gemini模型。目前已成为Figma Make、Replit、Manus、v0、Bolt.new等开发工具的官方数据连接器。

(@TechCrunch)

03 有态度的观点

1、经典科幻小说《雪崩》作者:我对头戴设备的判断是错的

昨天,经典科幻小说《雪崩》(Snow Crash)作者Neal Stephenson发文,就Meta关闭元宇宙项目一事发表评论。他曾在MR头戴设备公司Magic Leap任职,并曾坚定地追问同事和外界:“你真的认为二十年后,每个人还会整天盯着手里的小矩形屏幕吗?”当年他以为答案显而易见:不会。

但在这篇最新的文章里,他直接推翻了这一判断。二十年后,每个人依然会盯着手持的矩形屏幕——至少在唯一的替代方案是在脸上戴东西的前提下,是这样。 Stephenson进一步指出,试图把头戴设备做得越来越像普通眼镜,并不能解决接受度问题,反而带来了新的信任危机。

Google Glass问世后几乎立刻催生了“glasshole”(眼镜傻瓜)一词,Meta外形接近普通眼镜的智能眼镜产品同样遭遇了类似的社会反弹。他认为根源在于透明度的缺失:当有人盯着手机时,旁人至少能判断出他在看手机;而面对头戴设备的佩戴者,没有人知道对方是否正在注视自己,摄像头是否正在录像。这种不确定性让设备天然带有侵入感,「所以它令人不安」。

( @APPSO)

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策