商汤日日新5.0深度评测:多模态交互体验对比GPT-4o实测
在2024年上海世界人工智能大会的“大爱无疆·向新力”论坛上,商汤科技以战略合作伙伴身份,正式发布了国内首个实现“所见即所得”交互的模型——日日新5o。这款产品标志着多模态实时对话从技术概念走向了可感知的实用阶段,旨在为用户提供与GPT-4o对标的下一代交互体验。
所谓“所见即所得”交互,核心在于AI能够同步处理并融合理解语音、文本、图像及视频流信息,并给予实时、流式的自然反馈。这超越了传统的多模态识别拼接,实现了更接近人类对话的融合感知与即时响应。
现场演示直观展现了这一能力。工作人员简单问候后,日日新5o便通过摄像头主动识别出其胸卡带上的文字,准确判断出“这里是世界人工智能大会会场”,并幽默地补充在此可以“好好学习”。
随后的展示进一步体现了模型的细节感知能力。当工作人员拿起一只小狗玩偶时,模型不仅描述了其外貌与憨态表情,更精准捕捉到玩偶头上印有商汤Logo的白色帽子,展现了出色的视觉理解与注意力机制。
在更具挑战性的图文理解测试中,模型随机识别书本内页,其表现超越了基础OCR。它能快速解析页面图文布局,并生成简洁易懂的内容摘要,响应速度与流畅度均表现出色。
最能体现其人性化交互特质的,是对简笔画的实时解读。工作人员画出一只兔子,模型回应“可爱”。随后添加的微笑表情被识别为“平静的笑意”;当嘴巴被画大并加上舌头后,模型立刻反馈:“这个表情开心多了”。这种主动感知情绪、寻找话题的交流方式,让AI对话具备了真人聊天的自然感。
这种强大的实时多模态能力,尤其适用于需要连续自然对话与复杂场景解析的应用。其背后支撑,是日日新5.5基础模型的全面能力升级。
模型能力再进化:从对标到体验对齐
今年4月发布的日日新5.0已被视为国内对标GPT-4 Turbo的关键产品。而此次推出的日日新5.5体系,在短短两个月内实现了综合性能平均30%以上的提升,尤其在数学推理、英文理解与复杂指令跟随方面进步显著。这些核心指标的突破,使其在最终交互体验上实现了与GPT-4o的对齐。
在技术架构层面,日日新5.5采用了混合端云协同的专家模型架构。该设计旨在最大化云端与边缘侧的计算协同效率,在提升模型能力的同时,有效优化推理成本。模型训练数据规模超过10TB tokens,其中包含了大量用于强化逻辑思维的合成思维链数据,这是其推理能力跃升的关键。
降低门槛:“大模型0元Go”计划启动
为降低企业应用门槛,商汤同步启动了“大模型0元Go”计划。新注册用户可获得包含模型调用、数据迁移及训练支持在内的免费服务礼包。该计划还直接赠送5000万Tokens额度,并为从OpenAI平台迁移的用户配备专属顾问,目标是实现零服务成本的平滑迁移。
从模型的快速迭代、实时多模态交互的成熟演示,到面向开发者的普惠计划,这一系列动作表明,国产大模型竞争已从技术追赶进入体验竞争的新阶段。未来的焦点将不止于基准测试分数,更在于谁能提供更自然、更实用、更易获取的智能体验。




