医疗大模型权威测评:百川新一代模型幻觉率降至3.3%

2026-05-27阅读 0热度 0
百川智能

最近,清华大学百川楼的一场“AI医疗新范式”论坛,把行业的目光再次聚焦。百川智能的创始人王小川在会上,展示了他们即将发布的新一代医疗大模型Baichuan-M4,以及基于此的AI家庭医生产品“百小医”。


在王小川看来,医疗场景对大模型提出了近乎苛刻的刚性要求,可以总结为三个关键点。

第一,低幻觉。医疗领域容不得半点虚构,一个错误的判断可能直接关系到生命安全。这并非危言耸听,《BMJ Open》2026年的一项研究系统评估了主流通用大模型的医疗回答,结果显示,约50%的回答被评定为“有问题”,其中近20%更是属于“高度有问题”。这个水平的幻觉率,在严肃的医疗决策场景下,显然是无法接受的。

第二,强循证。真正的临床诊断遵循严格的循证医学路径,绝不是“根据症状猜一个最可能的病”那么简单。通用模型目前普遍缺乏这种系统性的、层层递进的推理能力。《JAMA Network Open》2026年的一项评测很能说明问题:在29个标准化临床案例中,21款主流大模型在鉴别诊断阶段的错误率普遍超过80%。它们的通病是,不按照临床指南的逻辑进行逐步排除,而是过早地锁定一个答案。

第三,会提问。任何受过专业训练的医生都知道,诊断始于有效的问诊,而不是在患者说完第一句话后就匆忙下结论。牛津大学2026年发表在《Nature Medicine》上的研究揭示了一个关键差距:AI在阅读标准化、结构完整的病历时,准确率可以达到94.9%;但当面对真实患者自助描述时,准确率骤降至34.5%。核心原因在于,患者的初始描述往往是不完整、不准确的,而通用模型不具备像医生那样主动、精准追问的能力。

可以说,这三条刚需,当前的通用大模型一条都没能完全达标。正是为了攻克这些难题,百川智能在其M系列医疗专用大模型上进行了针对性的深度优化。

根据公开信息,新一代的Baichuan-M4模型在HealthBench、HealthBench Hard、HealthBench Professional这三大权威医疗评测榜单中,同时取得了世界第一的成绩,超越了包括GPT-5.5、Opus 4.7、DeepSeek-V4-Pro在内的多个顶尖模型。其背后依托的,是一项原创的“事实性感知强化学习”算法。正是这项技术,将裸模型的事实性幻觉率控制在了惊人的3.3%。


百小医

而基于Baichuan-M4能力打造的AI家庭医生“百小医”,则展现了将技术落地的具体形态。它的产品核心定位非常清晰:“明明白白看医生,安安心心管家人”。

这款产品将深度融入微信生态。其设计思路是,在自然的对话交互中,系统能够持续捕捉并结构化记录每个家庭成员的身体状态、用药历史以及检查数据。更重要的是,它能够从日常的健康闲聊中识别出潜在的高危信号,并主动提醒用户复诊、用药等关键健康行为,试图扮演一个24小时在线的家庭健康守护者角色。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策