AI一日生活指南：商汤大模型「5o」交互全测评

2026-05-16阅读 0热度 0

商汤

刚刚落幕的世界人工智能大会（WAIC 2024），堪称今年的“AI界春晚”。会上，一个备受瞩目的角色登场了——来自商汤科技的“日日新5o”，它被称作国内首个具备“流式交互”能力的多模态大模型，也被视为“中国版GPT-4o”。

在演示中，日日新5o展现出了类人的实时视觉与对话能力。它能听、能说、能看，几乎没有延迟，通过摄像头和语音与用户所处的真实场景进行无缝交互。这感觉，就像打破了次元壁，第一次实现了与AI的“视频通话”，体验已无限接近真人聊天。

时间拉回两个月前，OpenAI推出GPT-4o，其突破性的智能交互彻底刷新了人们对AI语音助手的认知，也为人机交互模式带来了又一次震撼。

不过，震撼之余，国内大模型圈对GPT-4o的看法似乎不如当初对GPT-4那般一致。有人觉得“在通往AGI的路上，GPT-4o并非关键一步”；也有人评价“其技术突破谈不上惊艳”；当然，也有观点认为，GPT-4o的发布是AI 2.0时代的标志性事件，将催生全新的应用平台与商业模式。

但共识也逐渐清晰：多模态很可能引领下一波交互革命和产品创新，它正成为国内大模型竞争的下一个核心战场。

有趣的是，当国内业界还在探讨GPT-4o的产品形态是否将成为主流时，商汤科技已经用“日日新5o”给出了自己的答案和行动力。这无疑表明了他们对趋势的判断。

正如商汤CEO徐立在WAIC 2024上所强调的：“行业要变化，交互模式一定是先行的。”这句话，也道出了商汤为何要率先打造这款国产流式交互大模型。

1 大模型可以是每个人的贴身AI全能助手

想象一下，如果拥有一个能“看见”现实世界、能“听懂”指令、能“开口”回答的贴身AI助手，生活会变成什么样？

这位助手不仅学识渊博，覆盖生活、学习、工作的各个领域，关键在于，它能真正理解眼前的现实。摄像头成为它观察世界的眼睛，而视觉捕捉到的信息，它能瞬间分析、总结，并通过实时对话，像朋友一样立刻给你反馈，毫无迟滞。

清晨准备出门，想知道外面的天气该如何应对。日日新5o可以准确描述天气状况，并给出贴心的外出建议。

路过一处风景绝佳之地，想拍照却苦于姿势。这时，日日新5o便能化身摄影指导，根据当前景色告诉你如何调整姿势、利用光线。

晚间聚餐是户外烧烤，大家忙着生火架炉。日日新5o不仅能准确识别视频里的人们在做什么，还能详细提醒你户外烧烤的注意事项。

至于每种食材该怎么烤才美味？它又能瞬间切换成经验老道的“烧烤大师”，一一为你分辨讲解。

回到酒店，看到一袋咖啡粉不知如何下手。询问日日新5o，它能识别出这不是速溶咖啡，并像专业咖啡师一样告诉你冲泡步骤。

可见，日日新5o的知识储备足够丰富多元。它在生活场景中能扮演发型顾问、摄影师、烧烤大师、咖啡师等多种角色。而在职场环境中，它同样是一把好手。例如，快速总结书中某一页的核心内容，其反应和分析速度远超常人。

面对一张手写字条或诗句，它能立刻解读其含义与出处。

甚至能根据前三个字，准确预测出整个成语。

从这些场景不难看出，日日新5o凭借其广泛的多领域知识、首创的实时流式交互方式，以及精准的环境信息识别与分析能力，完全有潜力成为我们生活、学习与工作中的AI全能助手。

日日新5o之所以能成为一款出色的全能助手，除了展示出对标GPT-4o的各类能力——看见现实世界的人、物、文字；听懂指令并反馈；阅读并概括内容——其最根本的变革，在于交互模式本身。

作为国内首个流式交互多模态大模型，商汤将这种无缝、连续的交互方式融入大模型，带来了近乎真人的交流体验，让系统本身显得更“像人”。

回顾人工智能发展，ChatGPT当初一鸣惊人，正是因为它初步展现了人类才具备的自主学习、分析与逻辑能力。然而，让大模型“像人一样交流”，是否就是行业变革的先导？对此，业界此前并非没有争议。

而商汤发布日日新5o，正是基于其对AI 2.0时代的判断。徐立的观点很明确：行业变革，交互必须先行。

那么，什么才是定义AI 2.0时代的“超级时刻”？在徐立看来，这类似于iPhone定义移动互联网的时刻。超级时刻需要超级应用来引爆。即便是ChatGPT、Sora，也尚未真正到达那个“时刻”，原因在于它们还未深度融入垂直行业并引发广泛变革。

要走向真正的应用爆发，商汤认为有几个关键点必须突破：

首当其冲的，是实时交互带来的流畅体验。这是推动超级时刻与应用爆发的核心动力之一。

其次，是构建能够提升模型智力的高阶思维逻辑合成数据。

最后，是对生成内容（无论是文本、图像还是视频）的可控性。如果无法有效控制，那么它作为工具的效能提升将非常有限。

大模型的核心本质是记忆，记住世界的知识才能回答得更准。但徐立指出，它那一点有限的“智力”，恰恰来源于对知识背后高阶思维逻辑的记忆。因此，如何在垂直行业中构造高阶思维链的合成数据，往往成为制胜、差异化乃至中国人工智能发展之路的关键。

商汤最新发布的日日新5.5基座模型，便大量采用了这类合成的高阶思维链数据，使得模型平均能力提升了约30%。

徐立认为，要推动人工智能“超级时刻”的到来，大模型必须展现出卓越的深度思考能力。而合成数据，特别是高阶思维数据，在其中扮演着至关重要的角色。越是深入的应用场景，越能催生出高质量的核心数据。

过去，垂直领域的高级思维链数据依赖人工构建。但商汤的思路是再向前一步：不应依赖人力，而应通过与真实世界的交互，形成执行数据，并在此基础上进行推理。

正因如此，基于日日新5.5基座模型，商汤研发了日日新5o这款流式交互多模态大模型。它在摄像头移动、与真实世界持续互动的过程中，不断获取新信息进行推理和反馈。

日日新5o各项功能的实现，离不开基座模型日日新5.5的支撑。今年4月发布的日日新5.0，已是国内首个对标GPT-4 Turbo的大模型。经过两个多月的迭代，日日新5.5在数学推理、英文能力、指令跟随等方面显著增强，其交互效果与多项核心指标已可对标GPT-4o。