医疗大模型权威测评：百川新一代模型幻觉率降至3.3%

2026-05-27阅读 0热度 0

百川智能

最近，清华大学百川楼的一场“AI医疗新范式”论坛，把行业的目光再次聚焦。百川智能的创始人王小川在会上，展示了他们即将发布的新一代医疗大模型Baichuan-M4，以及基于此的AI家庭医生产品“百小医”。

在王小川看来，医疗场景对大模型提出了近乎苛刻的刚性要求，可以总结为三个关键点。

第一，低幻觉。医疗领域容不得半点虚构，一个错误的判断可能直接关系到生命安全。这并非危言耸听，《BMJ Open》2026年的一项研究系统评估了主流通用大模型的医疗回答，结果显示，约50%的回答被评定为“有问题”，其中近20%更是属于“高度有问题”。这个水平的幻觉率，在严肃的医疗决策场景下，显然是无法接受的。

第二，强循证。真正的临床诊断遵循严格的循证医学路径，绝不是“根据症状猜一个最可能的病”那么简单。通用模型目前普遍缺乏这种系统性的、层层递进的推理能力。《JAMA Network Open》2026年的一项评测很能说明问题：在29个标准化临床案例中，21款主流大模型在鉴别诊断阶段的错误率普遍超过80%。它们的通病是，不按照临床指南的逻辑进行逐步排除，而是过早地锁定一个答案。

第三，会提问。任何受过专业训练的医生都知道，诊断始于有效的问诊，而不是在患者说完第一句话后就匆忙下结论。牛津大学2026年发表在《Nature Medicine》上的研究揭示了一个关键差距：AI在阅读标准化、结构完整的病历时，准确率可以达到94.9%；但当面对真实患者自助描述时，准确率骤降至34.5%。核心原因在于，患者的初始描述往往是不完整、不准确的，而通用模型不具备像医生那样主动、精准追问的能力。

可以说，这三条刚需，当前的通用大模型一条都没能完全达标。正是为了攻克这些难题，百川智能在其M系列医疗专用大模型上进行了针对性的深度优化。

根据公开信息，新一代的Baichuan-M4模型在HealthBench、HealthBench Hard、HealthBench Professional这三大权威医疗评测榜单中，同时取得了世界第一的成绩，超越了包括GPT-5.5、Opus 4.7、DeepSeek-V4-Pro在内的多个顶尖模型。其背后依托的，是一项原创的“事实性感知强化学习”算法。正是这项技术，将裸模型的事实性幻觉率控制在了惊人的3.3%。

百小医

而基于Baichuan-M4能力打造的AI家庭医生“百小医”，则展现了将技术落地的具体形态。它的产品核心定位非常清晰：“明明白白看医生，安安心心管家人”。

这款产品将深度融入微信生态。其设计思路是，在自然的对话交互中，系统能够持续捕捉并结构化记录每个家庭成员的身体状态、用药历史以及检查数据。更重要的是，它能够从日常的健康闲聊中识别出潜在的高危信号，并主动提醒用户复诊、用药等关键健康行为，试图扮演一个24小时在线的家庭健康守护者角色。

医疗大模型权威测评：百川新一代模型幻觉率降至3.3%

相关阅读

最新教程

最新资讯