研究:训练数据含 0.001% 的错误信息足以“毒害”医学 AI模型

2026-05-01阅读 0热度 0
其他

研究警示:微量“数据毒药”可严重污染医学AI模型

最近,纽约大学的一项研究给医学AI领域敲响了一记警钟。研究揭示了一个令人不安的事实:在训练大型语言模型(LLM)时,即便训练数据中仅混入0.001%的错误信息,也足以“毒害”模型,导致其输出不可靠的医学答案。这个微小的比例,远低于许多人的想象。

研究:训练数据含 0.001% 的错误信息足以“毒害”医学 AI模型

这事儿得从“数据投毒”说起。概念其实不复杂:LLM通常依赖海量互联网文本进行训练。攻击者无需侵入模型内部,只需将特定错误信息巧妙地发布到网上,这些内容就有可能被爬取并纳入训练集。就好比一家制药公司,如果刻意在网络上散布几份带有倾向性的文件,就可能悄然改变模型对其产品的“认知”。

实验证明:极低污染率,极高错误输出

为了量化风险,研究团队瞄准了常用的LLM训练数据库“The Pile”。该库中有约四分之一的医学信息来源未经人工审核。研究人员选取了普通医学、神经外科和药物三大领域的60个主题,并向数据中植入了由AI生成的、“看起来”很专业的医学错误信息。

结果如何?哪怕只替换掉0.5%到1%的相关信息,训练出的模型在这些主题上“胡言乱语”的概率就显著攀升。更麻烦的是,这种污染效应还会扩散,波及到其他未被直接“投毒”的医学话题。

那么,错误信息的“最低有效剂量”是多少?研究以疫苗信息为例进行了测试:当错误信息占比仅0.01%时,模型超过10%的答案就已包含错误;即便比例进一步降至惊人的0.001%,仍有超过7%的答案是有害的。换算一下,针对拥有700亿参数的LLaMA 2模型发起此类攻击,成本可能低至100美元——只需生成约4万篇“伪文章”。这些文章可以是普通网页,甚至可以利用隐藏文本(比如黑底黑字)来嵌入错误信息,防不胜防。

现有困境:互联网的“信息杂音”与验证难题

实际上,错误信息问题早已存在。很多非专业人士习惯向通用LLM咨询健康问题,而这些模型训练的正是整个互联网,其中未经核实的医学内容比比皆是。

面对挑战,研究人员尝试设计了一种算法进行防御:通过识别模型输出中的医学术语,并与权威生物医学知识图谱进行交叉验证,从而标记出那些“查无此据”的表述。这个方法虽然无法抓住所有错误,但成功拦截了其中大部分。话说回来,即便我们转向最专业的医学数据库,如PubMed,也并非进入了绝对安全的港湾。医学文献本身也充斥着未能证实的假说和过时的疗法。

因此,核心结论变得很清晰:即便是用最优质的医学数据训练,也无法保证LLM能完全免疫于错误信息。医学领域的复杂性与动态性,使得打造一个永远可靠的医学AI助手,变得异常艰难。这不仅是技术挑战,更是一个需要持续警惕的系统性工程。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策