医学AI平台测评：50%建议存疑，权威榜单揭示五大头部问题

2026-06-24阅读 0热度 0

机器人

当身体出现不适，你的第一反应是打开搜索引擎，还是问问AI？一项最新的研究结果，或许能给这股“AI问诊”的热潮泼上一盆理性的冷水。

北京时间4月15日，彭博社报道指出，一项发表于权威医学期刊《BMJ Open》的研究揭示，AI驱动的聊天机器人在提供医学建议时，大约有一半的概率会给出“有问题”的答案。这无疑为这项正快速渗透我们日常生活的技术，敲响了关于健康风险的警钟。

研究如何进行的？

来自美国、加拿大和英国的研究团队，将目光投向了当前最主流的五大AI平台：ChatGPT、Gemini、Meta AI、Grok以及DeepSeek。他们的评估方法直接而系统：在五个不同的健康类别下，向每个平台提出10个问题，然后对答案进行专业评判。

结果令人深思。在所有收集到的回答中，约有50%被认定为“有问题”，而其中近20%更是被划为“高度有问题”的范畴。这意味着，当你向这些AI咨询健康问题时，拿到不准确或不完整建议的可能性，并非小概率事件。

（图示：黄色代表“有问题”的回答，橙色代表“高度有问题”的回答）

AI的“偏科”与“自信”

进一步分析发现，这些AI的表现存在明显的“偏科”现象。在面对诸如疫苗有效性、癌症筛查建议等封闭式、事实性较强的问题时，它们的回答相对更可靠。然而，一旦问题转向开放式咨询，或者涉及干细胞疗法、营养学等复杂且前沿的领域，AI的表现就开始大幅下滑，错误率和误导性显著增加。

更值得警惕的是研究指出的另一个共性：这些AI在给出回答时，往往带着一种“自信而确定”的口吻。但仔细审视就会发现，没有一个聊天机器人能在回答任何问题时，提供完整且准确的参考文献列表来支撑其观点。换句话说，它们说得“很肯定”，但依据却“不透明”。在整个研究过程中，仅有Meta AI出现过两次拒绝回答的情况，其他平台几乎是有问必答，无论其知识边界是否覆盖。

热潮背后的隐忧

这项研究之所以重要，是因为它精准地戳中了一个现实矛盾：公众对AI健康咨询的需求正在爆炸式增长，但这些平台本身，既未获得提供医学建议的执业许可，也缺乏人类医生所具备的临床判断与情境化分析能力。

数据显示，仅OpenAI的ChatGPT，每周就有超过2亿人咨询健康和保健问题。巨大的需求也催生了市场的快速跟进，今年1月，OpenAI宣布将推出面向普通用户和临床医生的健康工具，Anthropic公司也为其Claude产品规划了新的医疗保健服务。

然而，研究的作者们明确指出，如果在缺乏充分公众教育和有效监管的情况下匆忙部署这些健康聊天机器人，一个巨大的风险在于——它们可能成为错误信息的“放大器”。那些听起来权威、实则存在缺陷的回答，一旦被广泛传播和采信，后果不堪设想。

研究结论呼吁，必须重新评估AI聊天机器人在面向公众的健康沟通中的角色与部署方式。技术的进步带来了便利，但在关乎生命的医疗健康领域，审慎与验证永远应该排在盲目信任之前。毕竟，当健康遇到问题时，一个负责任的答案，远比一个快速却存疑的答案重要得多。

医学AI平台测评：50%建议存疑，权威榜单揭示五大头部问题

研究如何进行的？

AI的“偏科”与“自信”

热潮背后的隐忧

相关阅读

最新教程

最新资讯