人脸识别去偏见算法失效:杜克PULSE缺陷曝光引争议
在第四次工业革命浪潮中,人工智能被视作最核心的驱动引擎。然而,当技术全速推进时,一个棘手的隐患逐渐暴露——算法偏见。这种偏差若不加控制,很可能成为阻碍整个产业落地的关键瓶颈。
导火索来自杜克大学研发的超分辨率算法PULSE。在CVPR 2020上,该技术能将模糊人脸还原至毛孔、皱纹甚至发丝都清晰可见,效果极为惊艳。但一位用户用美国前总统奥巴马的模糊照片测试后,算法却生成了一张白人面孔。舆论瞬间引爆——算法被指控存在系统性种族歧视。
AI领域权威Yann LeCun迅速澄清:问题根源在于训练数据集——白人面孔占比过高,导致特征分布严重倾斜。从技术视角看,他的解释合乎逻辑。但话题敏感性过高,推特用户并不接受。争论持续升级,甚至有人提出更根本的质疑:我们根本无法理解算法内部的推理机制——这种“不可知性”带来的风险才是真正的危机。
类似事件也发生在MIT开发的Tiny Images数据集上。该数据集创建于2008年,广泛用于图像识别模型训练。但后续发现其中包含大量种族歧视与性别歧视标签——当系统识别有色人种或女性时,会自动匹配侮辱性描述。最终,MIT不得不永久撤下近亿条数据。
那么,算法偏见究竟指什么?通俗讲,就是人工智能在数据收集、分类、生成和解释过程中,复刻了人类固有的偏见。其表现形式涵盖种族歧视、年龄歧视、性别歧视、消费歧视、就业歧视、对弱势群体的污名化等。
皮尤研究中心2018年调查数据显示:58%的美国人认为计算机程序会反映一定的人为偏见,而仅40%的人相信可以通过中立方式设计这类程序。也就是说,多数人已默认偏见存在,却缺乏系统性解决方案。
最直接也最有效的破解路径是什么?扩充数据源的多样性。平衡采集数据在种族、肤色、年龄、性别上的分布,构建更具公平性的数据集。例如,已有团队针对多人种人脸识别采集了一套包含23349人的多色人种人脸数据集,每人提供29张图像——28张覆盖多光照、多姿态、多场景的图片,外加1张标准证件照。数据覆盖黄种人、黑人、白人、棕色人种和印度人。核心目标就是修正算法中的特征偏移,提升特征描述的准确性。
东南亚人群多姿态人脸示例
印度人群多姿态人脸示例
归根结底,算法偏见的本质并非技术缺陷,而是数据构成、设计逻辑及应用方式的问题。谷歌曾提出AI研究的七大原则:有益社会、避免制造或放大偏见、建立并测试安全机制、对用户负责、融合隐私设计、坚持高科学标准、依据原则确定应用场景。这些准则极具理想色彩,但真正落地,仍依赖扎实的数据治理与算法工程层面的持续投入。
