AI一日生活指南:商汤大模型「5o」交互全测评
刚刚落幕的世界人工智能大会(WAIC 2024),堪称今年的“AI界春晚”。会上,一个备受瞩目的角色登场了——来自商汤科技的“日日新5o”,它被称作国内首个具备“流式交互”能力的多模态大模型,也被视为“中国版GPT-4o”。
在演示中,日日新5o展现出了类人的实时视觉与对话能力。它能听、能说、能看,几乎没有延迟,通过摄像头和语音与用户所处的真实场景进行无缝交互。这感觉,就像打破了次元壁,第一次实现了与AI的“视频通话”,体验已无限接近真人聊天。
时间拉回两个月前,OpenAI推出GPT-4o,其突破性的智能交互彻底刷新了人们对AI语音助手的认知,也为人机交互模式带来了又一次震撼。
不过,震撼之余,国内大模型圈对GPT-4o的看法似乎不如当初对GPT-4那般一致。有人觉得“在通往AGI的路上,GPT-4o并非关键一步”;也有人评价“其技术突破谈不上惊艳”;当然,也有观点认为,GPT-4o的发布是AI 2.0时代的标志性事件,将催生全新的应用平台与商业模式。
但共识也逐渐清晰:多模态很可能引领下一波交互革命和产品创新,它正成为国内大模型竞争的下一个核心战场。
有趣的是,当国内业界还在探讨GPT-4o的产品形态是否将成为主流时,商汤科技已经用“日日新5o”给出了自己的答案和行动力。这无疑表明了他们对趋势的判断。
正如商汤CEO徐立在WAIC 2024上所强调的:“行业要变化,交互模式一定是先行的。”这句话,也道出了商汤为何要率先打造这款国产流式交互大模型。
1 大模型可以是每个人的贴身AI全能助手
想象一下,如果拥有一个能“看见”现实世界、能“听懂”指令、能“开口”回答的贴身AI助手,生活会变成什么样?
这位助手不仅学识渊博,覆盖生活、学习、工作的各个领域,关键在于,它能真正理解眼前的现实。摄像头成为它观察世界的眼睛,而视觉捕捉到的信息,它能瞬间分析、总结,并通过实时对话,像朋友一样立刻给你反馈,毫无迟滞。
清晨准备出门,想知道外面的天气该如何应对。日日新5o可以准确描述天气状况,并给出贴心的外出建议。
路过一处风景绝佳之地,想拍照却苦于姿势。这时,日日新5o便能化身摄影指导,根据当前景色告诉你如何调整姿势、利用光线。
晚间聚餐是户外烧烤,大家忙着生火架炉。日日新5o不仅能准确识别视频里的人们在做什么,还能详细提醒你户外烧烤的注意事项。
至于每种食材该怎么烤才美味?它又能瞬间切换成经验老道的“烧烤大师”,一一为你分辨讲解。
回到酒店,看到一袋咖啡粉不知如何下手。询问日日新5o,它能识别出这不是速溶咖啡,并像专业咖啡师一样告诉你冲泡步骤。
可见,日日新5o的知识储备足够丰富多元。它在生活场景中能扮演发型顾问、摄影师、烧烤大师、咖啡师等多种角色。而在职场环境中,它同样是一把好手。例如,快速总结书中某一页的核心内容,其反应和分析速度远超常人。
面对一张手写字条或诗句,它能立刻解读其含义与出处。
甚至能根据前三个字,准确预测出整个成语。
从这些场景不难看出,日日新5o凭借其广泛的多领域知识、首创的实时流式交互方式,以及精准的环境信息识别与分析能力,完全有潜力成为我们生活、学习与工作中的AI全能助手。
2 重塑交互的意义
日日新5o之所以能成为一款出色的全能助手,除了展示出对标GPT-4o的各类能力——看见现实世界的人、物、文字;听懂指令并反馈;阅读并概括内容——其最根本的变革,在于交互模式本身。
作为国内首个流式交互多模态大模型,商汤将这种无缝、连续的交互方式融入大模型,带来了近乎真人的交流体验,让系统本身显得更“像人”。
回顾人工智能发展,ChatGPT当初一鸣惊人,正是因为它初步展现了人类才具备的自主学习、分析与逻辑能力。然而,让大模型“像人一样交流”,是否就是行业变革的先导?对此,业界此前并非没有争议。
而商汤发布日日新5o,正是基于其对AI 2.0时代的判断。徐立的观点很明确:行业变革,交互必须先行。
那么,什么才是定义AI 2.0时代的“超级时刻”?在徐立看来,这类似于iPhone定义移动互联网的时刻。超级时刻需要超级应用来引爆。即便是ChatGPT、Sora,也尚未真正到达那个“时刻”,原因在于它们还未深度融入垂直行业并引发广泛变革。
要走向真正的应用爆发,商汤认为有几个关键点必须突破:
首当其冲的,是实时交互带来的流畅体验。这是推动超级时刻与应用爆发的核心动力之一。
其次,是构建能够提升模型智力的高阶思维逻辑合成数据。
最后,是对生成内容(无论是文本、图像还是视频)的可控性。如果无法有效控制,那么它作为工具的效能提升将非常有限。
大模型的核心本质是记忆,记住世界的知识才能回答得更准。但徐立指出,它那一点有限的“智力”,恰恰来源于对知识背后高阶思维逻辑的记忆。因此,如何在垂直行业中构造高阶思维链的合成数据,往往成为制胜、差异化乃至中国人工智能发展之路的关键。
商汤最新发布的日日新5.5基座模型,便大量采用了这类合成的高阶思维链数据,使得模型平均能力提升了约30%。
徐立认为,要推动人工智能“超级时刻”的到来,大模型必须展现出卓越的深度思考能力。而合成数据,特别是高阶思维数据,在其中扮演着至关重要的角色。越是深入的应用场景,越能催生出高质量的核心数据。
过去,垂直领域的高级思维链数据依赖人工构建。但商汤的思路是再向前一步:不应依赖人力,而应通过与真实世界的交互,形成执行数据,并在此基础上进行推理。
正因如此,基于日日新5.5基座模型,商汤研发了日日新5o这款流式交互多模态大模型。它在摄像头移动、与真实世界持续互动的过程中,不断获取新信息进行推理和反馈。
日日新5o各项功能的实现,离不开基座模型日日新5.5的支撑。今年4月发布的日日新5.0,已是国内首个对标GPT-4 Turbo的大模型。经过两个多月的迭代,日日新5.5在数学推理、英文能力、指令跟随等方面显著增强,其交互效果与多项核心指标已可对标GPT-4o。
展望未来,徐立设想,如果将这种流式交互多模态大模型嵌入眼镜、手机、电脑等终端设备,很可能会真正点燃一批革命性应用的爆发。
