智能手机前置摄像头心率监测系统专业评测
心率是人类最基本的生命体征之一,是身体状态的动态晴雨表。活动量大不大、压力高不高、有没有急性或慢性病,都会在心率上留下痕迹。而静息心率则更像一个长期“健康水平线”——过高,或者长期呈上升趋势,都跟主要不良心血管事件和全因死亡率绑在一起。
Fitbit 和 Pixel Watch 这类可穿戴设备,让普通人也能在日常生活中持续追踪心率和静息心率。但问题是,这些设备在资源有限的地区和心血管病高风险人群中的覆盖率,还远远不够。相比之下,智能手机提供了一个独特的机会窗口:目前全球大约有 50 亿人手里都有一部配备了强大传感器的智能手机,完全有潜力承担健康监测的重任。2022 年谷歌就展示过一种方案——用户把手指放在摄像头上,就能按需测量心率。后来的研究更是试图用这种信号来帮助预测心血管疾病。
最近,谷歌在《自然》杂志上发表了一篇论文,题为《日常生活中智能手机使用时的被动心率监测》。论文里推出了一套名为 PHRM 的研究系统,它能在用户日常使用手机的过程中,在后台持续追踪心率和静息心率。具体来说,PHRM 利用前置摄像头,在人脸解锁后的几秒钟内捕捉面部视频,然后通过深度学习算法估算心率。对比&心电图导出的真实值,它的平均绝对百分比误差(MAPE)低于 10%——这已经达到了行业公认的准确度标准。更关键的是,这套系统对所有肤色人群都表现稳定。此外,它会把全天测得的心率数据汇总,生成每日静息心率的估算值,准确度跟可穿戴设备差不多,平均绝对误差(MAE)低于每分钟 5 次。随论文一起公布的,还有目前规模最大、多样性最高的智能手机视频研究数据集,以及一个预训练好的“PHRM-mini”模型。符合条件的研究人员可以申请使用这些资源。
技术原理:远程光电容积脉搏波描记法
跟可穿戴设备、脉搏血氧仪以及此前的一些研究一样,PHRM 也是靠光电容积脉搏波描记法(PPG)来测量心率的——简单说,就是通过感知每次血液搏动时光线与皮肤相互作用的那些细微变化,来实现监测。研究团队为此开发了一套端侧软件处理流程,先对 8 秒长的面部视频片段进行处理,然后用一个计算效率很高的时间位移卷积神经网络来预测心率,并给出置信度评分。最后,把全天的预测结果汇聚起来,结合置信度评分和卡尔曼滤波算法,就能估算出每天的静息心率。
说起来,用于远程 PPG(rPPG)的计算机视觉模型已经有二十年历史了,但过去的研究大多是在规模很小的受控环境下进行的,泛化能力非常有限。而且,之前的研究严重低估了深肤色人群的问题——因为黑色素的存在,摄像头想要检测到这类人群的 PPG 信号,难度要大得多。最近的研究虽然对深肤色参与者的 rPPG 模型表现做了更深入的评估,但结果发现准确率明显偏低,这和脉搏血氧仪以及其他基于 PPG 的技术所遇到的困境如出一辙。实际上,脉搏血氧仪的这个问题已经促使美国食品药品监督管理局(FDA)起草了指导意见,要求验证研究中必须覆盖多样化的肤色。但遗憾的是,能达到类似标准的 rPPG 研究至今仍然很少。
多样化数据集与包容性设计
为了让 PHRM 能真正“一视同仁”,研究团队从近 700 名背景各异的知情参与者那里,采集了超过 35 万段视频片段。数据既包括实验室里的受控环境,也包括真实场景下的自然状态。团队还刻意对那些“难度更高”的案例加大了训练力度。他们采用色度测量方法和蒙克肤色量表,确保浅肤色(“第一组”,蒙克 1-4 级)和中等肤色(“第二组”,蒙克 5-7 级)的参与者各占数据集的至少 25%,深肤色(“第三组”,蒙克 8-10 级)的参与者占比则至少达到 33%。这个抽样方案,和 FDA 后来提出的肤色群组划分标准高度一致。在谷歌健康优化团队的支持下,他们还制定了一个非劣效性标准:各组之间 PHRM 心率 MAPE 的差异,必须小于 5 个百分点。正是这些努力,让 PHRM 研究成为迄今规模最大、多样性最高的 rPPG 研究,并最终推动开发出了一款在全肤色谱系上都能准确表现的包容性模型。
实验室验证结果
在实验室阶段,研究团队对 PHRM 进行了多场景训练。他们招募了 365 名来自不同肤色的参与者,在不同光照条件和各种活动状态下,同时采集面部视频和心电图数据。在独立的 104 人测试集上,经过置信度评分筛选后,PHRM 在各肤色组的 MAPE 都显著低于 10%——即使测试中涵盖了多种复杂条件。在同一测试集上,PHRM 的表现明显优于 15 种领先的已发表 rPPG 模型。无论是否经过置信度筛选,PHRM 都是唯一一个在全肤色群体中都能实现 MAPE 低于 10% 的模型。
真实场景研究:自由生活研究
为了在真实场景数据上训练 PHRM,研究团队开展了一项开创性的“自由生活”研究。231 名不同肤色的参与者,在自己的手机上安装定制的数据采集应用,连续 8 天像平常一样使用手机,同时佩戴着心电图胸带和 Fitbit Charge 6 健身追踪器。每次人脸解锁后,应用会自动录制 8 秒视频片段和心电图数据,平均每天能采集 231 段视频。每天结束时,参与者会手动审查当天的视频片段,确认排除敏感内容和其他人脸后,再主动授权将数据上传到安全加密的服务器。
在保留的 101 人验证子集上,经过置信度筛选后,PHRM 的整体 MAPE 达到了 6.09%。其中,第一组、第二组和第三组的 MAPE 分别为 5.04%、5.12% 和 7.84%,各组都显著低于 10%,也达到了预设的非劣效性目标。在自由生活条件下,PHRM 对同一 15 种主流 rPPG 模型的超越幅度进一步拉大,它依然是唯一一个在全肤色群体中实现 MAPE 低于 10% 的模型。Bland-Altman 分析显示,PHRM 平均低估心率仅 0.64 bpm,95% 一致性界限介于 -11.3 至 10.3 bpm 之间;而且置信度评分越高,误差就越小。
静息心率估算结果
接下来,研究团队对在一天或多天内拥有至少 20 次心率测量记录的参与者,应用了 PHRM 的静息心率算法。在符合条件的 90 名参与者中,PHRM 成功估算了 73.6% 的“参与者-天”的静息心率。与 Fitbit Charge 6 提供的每日静息心率相比,PHRM 静息心率的整体 MAE 为 4.39 bpm,显著低于预设的 5 bpm 目标。Bland-Altman 分析显示,PHRM 平均低估静息心率 0.1 bpm,95% 一致性界限介于 -9.1 至 9.2 bpm 之间;而且随着静息心率测量天数的增加,误差还在持续降低。各肤色组的 MAE 都显著低于 5 bpm,第三组从第三天起,MAE 同样显著低于 5 bpm。
此外,研究还证实:PHRM 推算出的静息心率较高的参与者,在控制了其他变量后,更可能出现高体重指数和较低的心肺适能(低 VO2max)。这说明 PHRM 准确捕捉到了与心血管风险相关的方向性关联。
研究意义与未来展望
据研究团队所知,PHRM 是第一个在日常智能手机使用中,大规模验证被动心率与每日静息心率监测的系统。作为唯一一个在全肤色人群中——即使在不可预测的真实环境下——都达到心率准确度标准的 rPPG 方法,它为这个领域树立了一个新的基准。同时,这也是 rPPG 技术首次被用于估算每日静息心率,并在全肤色群体中实现了可穿戴设备级别的准确性。
当然,PHRM 也不是完美无缺的。虽然它在各肤色群体中都达到了准确度标准,但第二组和第三组的心率测量成功率相对偏低,这很可能源于深色皮肤对 PPG 信号检测的固有挑战。未来可以考虑优化摄像头曝光参数,或者触发额外采样,来提升测量成功率。另外,参与者说话和头部运动会带来一些离群误差,改进视频防抖技术,或者用基于加速度计的门控策略,都有望进一步降低误差,并优先筛选在静息状态下的采集时机。未来的系统还可以通过人脸身份验证和安全端侧处理,进一步保障数据完整性和隐私安全。
为了推动相关研究的深入发展,谷歌已经向具备机构审查委员会(IRB)批准且满足数据保护要求的研究人员,开放了这套里程碑式的数据集和建模资源。为了保护研究参与者的隐私,所有视频都是在 IRB 批准下采集的,并严格依据参与者的明确知情同意进行处理。这个数据集严格限于非商业研究用途,访问的研究人员被明确禁止尝试重新识别任何个人身份,或公开展示原始视频资产。谷歌诚邀研究界基于这些资源,在现有工作的基础上持续探索。
这项研究凝聚了谷歌团队超过七年的持续努力,感谢所有参与者与合作伙伴的支持。
Q&A
Q1:PHRM 系统是如何通过手机摄像头测量心率的?
A:PHRM 利用前置摄像头,在人脸解锁后的几秒钟内录制面部视频。它通过光电容积脉搏波描记法(PPG),感知每次血液搏动时光线与皮肤相互作用的细微变化,再利用深度学习中的时间位移卷积神经网络来估算心率及置信度评分。最后,把全天的测量结果汇聚起来,结合卡尔曼滤波算法估算每日静息心率。整个流程完全在后台被动运行,用户无需任何主动操作。
Q2:PHRM 对不同肤色人群的测量准确度是否存在差异?
A:PHRM 在所有肤色群体中的心率 MAPE 都显著低于 10%,达到了行业标准。在自由生活研究中,浅肤色组、中等肤色组和深肤色组的 MAPE 分别为 5.04%、5.12% 和 7.84%。深肤色组的测量成功率相对偏低,原因在于黑色素增加了摄像头检测 PPG 信号的难度。在静息心率方面,深肤色组从第三天起,MAE 也显著低于 5 bpm 的目标值。
Q3:PHRM 的数据集和模型是否对外开放?使用有哪些限制?
A:谷歌已经公开了目前规模最大、多样性最高的智能手机面部视频研究数据集,以及预训练的“PHRM-mini”模型,供符合条件的研究人员申请访问。申请者必须持有机构审查委员会(IRB)的批准,并满足数据保护要求。该数据集严格限于非商业研究用途,严禁尝试重新识别参与者身份或公开展示原始视频资产。
