小天才imoo发布二合一实时翻译硬件,Streamo推大模型流式交互

2026-06-12阅读 0热度 0
人工智能

小红书的孵化团队 rednote-hilab 发布了仅 3B 参数的多模态 OCR 模型 dots.mocr,同时推出专门优化图像转 SVG 的版本。官方宣称,在同量级的多语言文档解析任务中,模型已达当前最佳水平,可将图表和 UI 布局直接转换为可用 SVG 代码。

在 olmOCR-Bench 等基准测试中,dots.mocr 表现突出,多项细分指标超越 Gemini 3 Pro。针对 SVG 优化的 dots.mocr-svg 在 UniSVG 和 Chartmimic 上分别取得 0.931 和 0.905 的高分,同样领先于 Gemini 3 Pro。

官方也明确承认了当前版本的不足:复杂表格提取准确率不够高,SVG 生成鲁棒性有待加强。这些缺陷已列入后续迭代路线图。

Hugging Face 模型主页: https://huggingface.co/rednote-hilab/dots.mocr

GitHub 仓库地址: https://github.com/rednote-hilab/dots.mocr

大模型竞技场又有新动向。今天凌晨,千问(Qwen)发布了旗舰模型预览版 Qwen3.5-Max-Preview,并首次亮相全球大模型竞技场 LM Arena,斩获 1464 分。阿里千问由此升至全球大模型公司排行榜第五,并稳居中国第一。

本次测评三大亮点:无风格控制设置下,整体性能全球第六、中国第一;数学能力全球第五;专家级文本能力跻身全球前十。

另一项深度研究值得关注。香港浸会大学与腾讯优图实验室联合提出 Streamo 框架,其核心创新在于将“何时响应”的决策问题转化为模型需预测的一个 token。通过端到端训练,将原本面向离线视频的模型直接改造为支持实时交互的流式视频助手。

Streamo 可处理真实视频流,支持多指令实时互动 —— 实时解说、动作识别、事件定位、实时问答等场景均可覆盖,使流式视频助手从概念走向可落地。

背景在于,尽管视频大语言模型近年发展迅速,但关键瓶颈始终未解:所有模型均基于完整视频片段的离线场景设计。现实交互需求却多是“边看边说”的实时流式场景。

现有方案往往拆出独立的决策模块先判断“是否响应”,再调用离线模型生成内容。这种割裂的决策与生成流程,导致模型在持续变化的输入中难以形成连贯、及时的响应。

Streamo 的核心洞察是:决策与生成不应拆分,应统一至同一端到端框架,让模型直接学会“何时该说话,以及说什么”。

实现真正的实时多模态助手(如直播理解、智能驾驶提醒、安防巡检、运动教学),最大的难点不在“答对”,而在恰当的时机给出恰当的回应。Streamo 不仅破解了视频大模型当前的关键瓶颈,提供了将静态感知模型转化为动态交互智能体的可复用技术路线,还贡献了一套统一时间标注的大规模流视频指令数据,推动流视频理解领域向前迈进。

论文仓库地址: https://github.com/maifoundations/Streamo

02 值得关注的产品亮点

ElevenLabs 近期宣布,ElevenCreative 平台正式推出 Music Marketplace(音乐市场),将 AI 音乐生成创作与收益直接挂钩——创作者可通过其音乐模型生成的曲目获取版税收入。

创作者在平台完成提示词生成与后期精调后,即可将曲目发布至音乐市场。每次下载或被其他项目重混,原作者均可获得报酬。该模式沿袭了已支付超 1100 万美元的 Voice Marketplace(语音市场),目标是将同样的创收潜力延伸至音乐领域。

对营销人员、企业和内容创作者而言,Music Marketplace 大幅简化了传统音乐授权流程。无需纠结同步授权费、无需逐次谈判使用条款、无需等待版权清理——可直接实时获取商用授权,消除法律合规的等待期。

另一款跨界产品抢眼登场。小天才海外品牌 imoo 在 Kickstarter 发起了一项创意众筹——面向海外市场的可穿戴硬件 imoo Watch Buds。售价 199 美元,早鸟价 139 美元,众筹已结束,若进展顺利预计四月初发货。

值得注意的是,其目标受众与 imoo 以往产品截然不同——从儿童和青少年转向每日在通勤、会议、健身间无缝切换的都市成年用户:跑步者、通勤族、旅行者、极简主义者。

项目描述中的一句话点明了精髓:“耳机总是放在离你仅半步之遥的地方,而正是这短暂距离,导致它们容易丢失、被遗忘,或打乱日常生活。如果科技无法让生活更简单,它的意义何在?”

基于这一理念,imoo Watch Buds 应运而生。顾名思义,它尝试将手表与耳机合二为一。

技术核心难题:如何确保合二为一后手表和耳机的功能均不受影响?imoo 的巧妙选择是——不将耳机隐藏于手表内部,而是让耳机环绕在表盘四周,通过磁吸与手表融为一体。这样既保证了耳机的造型、佩戴舒适度与音质,又使表身保持纤薄轻巧。耳机可直接通过手表充电,无需额外充电盒或配件。

单就手表而言,这也是一款功能全面的智能手表。配备简约数字显示屏,健康监测覆盖心率、血氧、睡眠与压力分析、计步及卡路里追踪,全部依托光电容积脉搏波传感器。所有数据同步至 imoo Buds App。

除健康监测外,imoo Watch Buds 还支持实时翻译和语音转录,结果可即时传输至耳机和 App,实现多语言面对面沟通。

可以说,imoo Watch Buds 是 imoo 两大核心产品线——imoo Watch Phone(智能手表)与 imoo Openbuds(开放式耳机)——专业积累的结晶。两条原本平行的探索路径,终于在这一产品上合二为一。

最后来看具身智能陪伴机器人。上海青心意创科技有限公司(Cyan)历经十个月研发,推出首款产品——Amoo。

青心意创对陪伴的理解是:内核在于“有回应的情感联结”。团队为 Amoo 构建了全维度感知能力与多模态协同的情绪表达系统,使其能读懂用户、理解用户并精准回应。

感知层面,Amoo 具备“眼睛、耳朵和皮肤”,可敏锐捕捉生活场景与情绪变化。超广角视觉与精准声音识别能识别家人的表情、动作和话语,并给予回应、表达多种情绪。全身覆盖触觉感应,被轻轻抚摸时会展现亲昵而生动的“舒服”表情。

依靠自研 Agentic OS 与情绪步态大模型,Amoo 能根据实时感知信息自主做出最贴合场景的自然反应——眼神、语言、肢体协同反应时间低于 30 毫秒。基于情绪引擎的原子化动作库,确保表情输出在物理层与语义层高度匹配,实现丰富细腻的拟人动作与复合情绪,情感表达更精准、更真实。

Amoo 能成为懂陪伴、会共情、能自主的“家人”,还得益于整体协同能力的跃升。当前可规模化量产的具身智能机器人,往往难以靠感知、算法、运控的单点突破实现整体提升。青心意创基于多模态感知模型和 Agentic OS,将智能驾驶领域的先进架构迁移至机器人,打造“大小脑”协同系统,使 Amoo 同时具备类似生物的“直觉反应”与“深度思考”能力,突破多模态协同输出与物理性闭环交互难题,实现“身心合一”的情绪表现力。

03 观点与立场

苹果 CEO 蒂姆·库克日前在纽约中央车站接受博主 Nikias Molina 专访。当被问及 iPhone 的未来,库克直言:iPhone 不会消失,将在很长一段时间内继续存在。他补充道,人们仍可用 iPhone 做很多事,它将继续作为数字生活的核心。

当被追问 iPhone 之后的“下一件大事”时,库克并未指向某款具体产品,而是将苹果的未来归结为“人与文化”。他认为,硬件、软件与服务的交汇处才是苹果魔力的来源,“生态系统是一切的核心”。同时,未来的创新“将会非常酷、非常有创意”。

关于 AI 浪潮下如何保持技术的人文温度,库克的回答是:“始终以用户为核心。如果你始终致力于丰富他人的生活,那么你所创造的东西对世界就是好的。”

值得一提的是,明年 iPhone 将迎来问世 20 周年。今年第一季度,iPhone 营收达 852 亿美元,创历史新高。库克用“令人震惊”形容该季度需求,并表示“iPhone 实现了有史以来最佳季度表现,需求空前,每个地区市场均创历史纪录”。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策