研究：ChatGPT、Gemini等主流AI半数给出错误医疗建议

2026-04-26阅读 599热度 599

ChatGPT

当AI成为“家庭医生”：一次令人警醒的医疗咨询测试

最近，一项针对全球主流生成式AI工具的测试，给火热的AI医疗咨询泼了一盆“冷水”。测试发现，包括OpenAI的ChatGPT、谷歌的Gemini在内的多款头部AI聊天机器人，在面对普通人常见的健康咨询时，给出的回答有一半以上都不准确，甚至存在明显的误导性。这无疑给AI在医疗领域的应用前景，蒙上了一层现实的阴影。

测试结果：安全风险不容忽视

测试团队精心准备了上百个普通人最常在网上搜索的健康问题，从慢性病的日常管理到突发不适的应急处理，几乎覆盖了所有大众咨询场景。结果呢？

数据显示，只有不到一半的AI回复称得上符合专业临床规范。更令人担忧的是，在错误的回复中，超过三成都存在明确的安全隐患。比如，有的会写错处方药的剂量，有的完全忽略了药物过敏的禁忌，甚至还有的会推荐早已被现代医学淘汰的旧疗法。这些错误可不是简单的信息偏差，它们完全有可能对咨询者的健康造成直接威胁。

热潮背后：通用AI的医疗“软肋”

这几年，大语言模型的能力突飞猛进，向AI咨询健康问题，已经成了不少人的新习惯。头疼脑热，先问问AI，似乎比跑一趟医院更方便。但问题恰恰出在这里。

目前市面上绝大多数面向普通用户的通用AI聊天机器人，它们的“知识”主要来自互联网上的公开信息。这些数据既没有经过专业医疗机构的审核把关，其产品本身也并未获得任何医疗服务的资质。说白了，它们提供的健康信息，本质上和你在网上随意搜索到的内容，属于同一类别——缺乏权威性和可靠性保障。

行业反思：医疗容不得“差不多”

这次测试的结果，其实给整个行业提了个醒：医疗领域的容错率，几乎是所有应用场景中最低的。用衡量通用大模型的标准来要求医疗AI，显然行不通。一个语法错误无伤大雅，但一个用药建议的错误，后果可能不堪设想。

当然，头部AI厂商已经意识到了这个问题，开始与专业医疗机构联手，共同开发垂直领域的医疗大模型。不过，这条路走起来并不轻松。高质量的专业标注数据从何而来？不同地区的医疗审核标准如何统一？这些都是横在面前的现实挑战。

给普通用户的最终建议

那么，作为普通用户，我们该如何看待AI的健康建议呢？答案很明确：仅作参考，绝不替代。

当前阶段，通用AI提供的医疗回复，其价值更像是一本可以交互的“健康百科”，它能提供一些基础的信息梳理，但绝对无法替代专业医生的诊断和治疗。身体出现任何问题，最稳妥、最安全的方式，依然是及时寻求正规的医疗帮助。毕竟，在健康这件事上，依赖一个可能出错的“黑箱”模型，风险实在太大了。

研究：ChatGPT、Gemini等主流AI半数给出错误医疗建议

当AI成为“家庭医生”：一次令人警醒的医疗咨询测试

测试结果：安全风险不容忽视

热潮背后：通用AI的医疗“软肋”

行业反思：医疗容不得“差不多”

给普通用户的最终建议

相关阅读

最新教程

最新资讯