汉堡王AI检测礼貌用语 阿里将推AI眼镜指环

2026-06-11阅读 0热度 0
人工智能

开发者朋友们,新的一周从RTE开发者日报开启。每日我们持续追踪实时互动(RTE)赛道,甄选硬核技术、亮眼产品、深度洞察与行业动态。编辑部按个人口味筛选,欢迎随时留言指正。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、Nano Banana 2 上线:高画质与高速生成首次兼得

Google今天正式发布了新一代图像生成模型Nano Banana 2(即Gemini 3.1 Flash Image)。这款模型在保持极速生成的基础上,将画质、语义理解与主体一致性提升至新高度,堪称Nano Banana Pro的精简版,面向更广泛的用户开放。

Nano Banana 2继承了Gemini系列的真实世界知识库,并可结合网页搜索获取实时信息。在空间布局、比例协调、光影渲染以及中文文本生成上,输出效果自然流畅。

  • 单次生成可维持最多5个角色面部不变、14个物体外观一致,特别适用于漫画连载与分镜设计等复杂场景
  • 输出分辨率从512px到4K,画质较前代更锐利,光影表现更真实,可直接用于营销素材或视觉设计
  • 采用与Gemini Flash相同的高效架构,主打“近乎实时”的生成体验,适合快速迭代与多轮修改
  • 成本方面,普通用户每天可在Gemini应用和Google搜索中免费生成100张图片,Pro用户额度升至1000张;API价格较上一代Pro模型腰斩,生成一张4K图像成本约0.15美元;
  • 内容可信度上,Google升级了SynthID数字水印与C2PA内容凭证,AI内容的可溯源能力显著增强。

( @APPSO)

2、千万ARR、12个月13倍增长,Fish Audio全面发力端到端情感语音与全双工模型

Alphaist Partners近期对AI语音平台Fish Audio联合创始人进行了深度专访。这家从开源社区起步的初创公司,过去12个月实现13倍增长,年度经常性收入(ARR)达千万美元,月活用户突破100万,目前位居全球AI语音平台流量第二位。

与头部竞品ElevenLabs侧重于企业级配音不同,Fish Audio将核心受众锁定在播客、游戏与开发者等专业内容创作者(Prosumer),以及AI陪伴类应用。其核心壁垒体现在以下几方面:

  • 百万级UGC生态:平台积累110万个公共语音模型,创作者可从被调用的模型中获得30%收益分成。该生态不仅促进C端用户转化,还构筑了极难复制的数据资产。
  • 端到端模型架构:S1模型为首个支持自然语言情感控制的TTS模型。团队坚信端到端架构的潜力,即将发布的S2模型在数据清洗管线(特意保留吵架、争论等富含情感的多说话人重叠数据)与强化学习(RLHF)上进行了深度重构。
  • 自研底层管线:为精准控制语音副语言(如笑声、停顿),团队完全自研了情绪标注ASR模型、声音分离模型等核心工具。

商业化路径上,Fish Audio采用典型的产品驱动增长(PLG)模式:先通过开源核心模型在开发者群体中建立信任,再借助创作者工具Fish Studio积累口碑,最终促成了占总收入40%的B端企业级API订阅。

团队方面,Fish Audio汇聚了前Meta增长负责人与前英伟达算法研究员等核心成员。人才招募优先从开源社区挖掘具备创业者特质的“超级个体”,搭配充裕计算资源与合理股权激励,打造了一支自驱力极强的年轻技术团队。未来,Fish Audio计划推出全双工模型,并向多模态内容创作平台演进。

( @Founder Park)

02 有亮点的产品

1、随时随地与AI偶像“通电话”:Soulja Boy专属语音克隆热线展现交互新玩法

说唱歌手Soulja Boy近期与初创公司Bland AI合作,推出了一款可实时互动的AI语音克隆热线。拨通号码后,系统以近乎完美的逼真声音迎接来电者,并自信地自称首位“用AI实现声音自动化”的说唱歌手——这一设定巧妙呼应了他早年热单《Kiss Me Thru The Phone》。

Bland AI专门为企业开发对话式电话智能体,这意味着Soulja Boy的声音现在可被用于自动化客服与日程安排。实际测试显示,AI的语调与本人高度一致,在热情探讨技术创新与创造力的同时,会不断将话题拉回商业合作选项上,整体互动体验令人印象深刻。

该项目凸显了语音克隆技术向主流娱乐产业的加速渗透。 目前演艺界正以不同方式应对这一趋势:

  • 部分艺人选择与ElevenLabs等公司合作,开放自己的AI声音使用权;
  • 马修·麦康纳(Matthew McConaughey)等演员则尝试通过注册商标的方式,为声音和口头禅抢占先机。

对Bland AI而言,此次明星合作不仅展示了其取代传统呼叫中心的潜力,更放大技术的娱乐价值。AI热线进一步延伸了粉丝互动边界,让大众能在社交平台之外与偶像的“声音”进行无限时的沉浸式对话。 从近期一段Soulja Boy与AI声音即兴说唱的视频来看,AI或许会成为他未来的重要搭档。

( @TechRadar、@usebland@X)

2、阿里千问AI眼镜将在MWC 2026发布,3月2日开启预约

继AI购物春节爆火之后,阿里巴巴旗下个人AI助手“千问”正式进军AI硬件领域,今年将在全球市场推出多款不同形态的AI硬件产品。千问将于西班牙巴塞罗那举行的2026年世界移动通信大会(MWC)上发布首款同名AI眼镜,并于3月2日开启线上线下全渠道预约

据悉,阿里正将千问打造成软硬一体、跨多种终端形态的AI助手。跳出手机束缚的千问,能捕获更多物理世界信息,在复杂生活场景中理解用户意图,让AI解锁更多可能性。千问App点外卖、打车等能力,也将无缝连接到千问AI眼镜等终端设备。

据阿里内部人士透露,除了AI眼镜,千问年内还会陆续发布AI指环、AI耳机等产品,并面向全球市场发售。

据IT之家此前报道,阿里巴巴去年12月已成立千问C端事业群,由阿里巴巴集团副总裁吴嘉负责。千问C端事业群的首要目标是将千问打造成一款超级App,成为AI时代用户的第一入口。未来,还将进一步让千问成为无处不在的AI助手,覆盖眼镜、PC、汽车等场景

(@IT之家)

3、汉堡王在员工耳机中部署AI系统,可检测员工是否说了“请”“谢谢”

据外媒The Verge报道,汉堡王推出一款名为Patty的AI助手,部署在员工耳机中,辅助日常运营。该语音助手属于BK Assistant平台的一部分,不仅能协助制作餐品,还可分析员工与顾客交流时的友好程度

汉堡王首席数字官Thibault Roux表示,公司通过分析加盟商与顾客反馈,训练AI识别体现服务态度的关键用语,比如“欢迎来到汉堡王”“请”和“谢谢”,门店经理可通过该系统了解门店服务表现。目前该系统主要用于员工培训,公司正在提升AI识别对话语气的能力。

Patty由OpenAI技术支持,是BK Assistant平台的核心语音接口。该平台整合了免下车点餐、厨房设备与库存数据,员工可直接询问餐品制作标准或设备清洁流程等操作问题

系统还与云端销售系统连接,设备故障或商品缺货时会自动通知管理人员,并在约15分钟内同步更新库存状态,确保门店点餐系统、免下车点餐和数字菜单保持一致。

汉堡王计划在2026年底前,将BK Assistant平台推广到美国所有门店。目前Patty正在500家门店进行测试。

(@IT之家)

03 有态度的观点

1、黄仁勋:AI助手不会取代软件行业

英伟达CEO黄仁勋近日接受CNBC采访时,再次回应外界关于AI会冲击软件行业的担忧。

他强调市场对此问题的理解存在“判断失误”——AI助手不仅不会取代软件工具,反而会进一步提升软件行业效率。

他指出,AI助手将成为“工具的使用者”,而非替代者。无论是Cadence、Synopsys、ServiceNow还是SAP,这些工具存在的根本原因不会改变,AI将在这些工具之上进一步提升生产力。

我们需要工具来完成具体工作,并以我们能理解的方式将信息反馈给我们。

这一表态出现在英伟达发布强劲财报之后。2026财年第四财季,英伟达营收达681.27亿美元,同比增长73%,高于市场预期。在财报电话会上,黄仁勋强调,智能体AI的拐点已经到来,全球企业正在加大算力投入。

在这个AI的新世界里,算力即收入。

( @APPSO)

阅读更多Voice Agent学习笔记:了解最懂AI语音的头脑都在思考什么

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策