研究:ChatGPT、Gemini等主流AI半数给出错误医疗建议
当AI成为“家庭医生”:一次令人警醒的医疗咨询测试
最近,一项针对全球主流生成式AI工具的测试,给火热的AI医疗咨询泼了一盆“冷水”。测试发现,包括OpenAI的ChatGPT、谷歌的Gemini在内的多款头部AI聊天机器人,在面对普通人常见的健康咨询时,给出的回答有一半以上都不准确,甚至存在明显的误导性。这无疑给AI在医疗领域的应用前景,蒙上了一层现实的阴影。
测试结果:安全风险不容忽视
测试团队精心准备了上百个普通人最常在网上搜索的健康问题,从慢性病的日常管理到突发不适的应急处理,几乎覆盖了所有大众咨询场景。结果呢?
数据显示,只有不到一半的AI回复称得上符合专业临床规范。更令人担忧的是,在错误的回复中,超过三成都存在明确的安全隐患。比如,有的会写错处方药的剂量,有的完全忽略了药物过敏的禁忌,甚至还有的会推荐早已被现代医学淘汰的旧疗法。这些错误可不是简单的信息偏差,它们完全有可能对咨询者的健康造成直接威胁。
热潮背后:通用AI的医疗“软肋”
这几年,大语言模型的能力突飞猛进,向AI咨询健康问题,已经成了不少人的新习惯。头疼脑热,先问问AI,似乎比跑一趟医院更方便。但问题恰恰出在这里。
目前市面上绝大多数面向普通用户的通用AI聊天机器人,它们的“知识”主要来自互联网上的公开信息。这些数据既没有经过专业医疗机构的审核把关,其产品本身也并未获得任何医疗服务的资质。说白了,它们提供的健康信息,本质上和你在网上随意搜索到的内容,属于同一类别——缺乏权威性和可靠性保障。
行业反思:医疗容不得“差不多”
这次测试的结果,其实给整个行业提了个醒:医疗领域的容错率,几乎是所有应用场景中最低的。用衡量通用大模型的标准来要求医疗AI,显然行不通。一个语法错误无伤大雅,但一个用药建议的错误,后果可能不堪设想。
当然,头部AI厂商已经意识到了这个问题,开始与专业医疗机构联手,共同开发垂直领域的医疗大模型。不过,这条路走起来并不轻松。高质量的专业标注数据从何而来?不同地区的医疗审核标准如何统一?这些都是横在面前的现实挑战。
给普通用户的最终建议
那么,作为普通用户,我们该如何看待AI的健康建议呢?答案很明确:仅作参考,绝不替代。
当前阶段,通用AI提供的医疗回复,其价值更像是一本可以交互的“健康百科”,它能提供一些基础的信息梳理,但绝对无法替代专业医生的诊断和治疗。身体出现任何问题,最稳妥、最安全的方式,依然是及时寻求正规的医疗帮助。毕竟,在健康这件事上,依赖一个可能出错的“黑箱”模型,风险实在太大了。