四大AI助理权威评测:Siri、Alexa、谷歌助理与Cortana实测横评
人工智能的概念已经不再停留在纸面上,各路玩家纷纷入局,一个属于AI的时代似乎正在加速到来。作为普通用户最常接触的载体,智能语音助手俨然成了各大科技公司展示技术实力的第一道窗口。这些虚拟助手天天被用户“调戏”,到底谁更靠谱?我们不妨通过一次实战评测来揭晓答案。
2016年可以说是主流科技公司集体拥抱虚拟语音助理的元年,亚马逊Echo在欧美的持续走红更是印证了这一点。业内普遍认为,人工智能将成为人机交互的核心支柱,而智能虚拟助理正是切入这个市场的关键抓手。于是我们看到,苹果有Siri,亚马逊有Alexa,微软有Cortana,谷歌有Google Assistant——各家都在押注这片战场。
尽管技术已经发展了不少年头,但这些巨头心里都清楚,智能虚拟助理仍处于成长期,未来的路还很长。不过话说回来,它们已经开始逐步渗透进我们的日常生活了。
为了验证各家产品的真实水平,本文对这四款助手进行了一次相对系统的测试。由于目前还没有一个标准化、体系化的评价方法,实验中尽可能多地覆盖了基础话题,力求测试效果更全面。测试涉及以下十一个维度:出行、电子邮件、信息、体育运动、翻译、系统功能、基本知识、音乐、天气、日程、生活服务。
基于这十一项测试条目,我们对四类助手分别提出了常见问题和指令。测试所使用的设备如下:Siri(iPhone SE)、谷歌助理(Google Pixel XL)、Cortana(ThinkPad X1 Yoga)、Alexa(Amazon Echo Dot)。需要说明的是,尽管亚马逊后来面向Kindle Fire平板推出了Alexa,但在本次测试前,该功能尚未上线。
为了更有效地评估各产品的综合能力,我们从四个维度进行考量:情景交互能力、知识库完整度、AI智能功能完整度以及第三方应用功能整合能力。
测试1:出行场景
表1 出行场景测试结果
出行路径规划:从路径规划来看,谷歌助理的智能化表现最为突出。情景交互层面,谷歌助理与Alexa能够实现全语音的路径规划交互,且具备上下文关联的识别能力;而Siri和Cortana在这个场景下无法做到上下文的关联,深度交互还得依赖手动触碰选择。功能方面,谷歌助理依托谷歌地图的强路径规划能力,能主动规划路线,并提供不同交通方式的耗时对比。Siri与Cortana在匹配地址时采用模糊匹配,需要用户二次确认才能继续推进。Alexa虽然能借助Yelp Data计算距离和行车耗时,但本身并不具备路径规划功能。
航班预订:谷歌助理在航班预订功能上也最为完善。交互层面,谷歌助理与Alexa均未实现上下文关联的深度交互,需要配合触碰操作完成。功能方面,谷歌助理整合了Google Flights,支持用户查阅和预定机票(主要依赖触碰交互);Alexa整合了Kayak的航班查阅功能,但预定功能尚未开放。Siri与Cortana则无法通过语音识别航班预定的需求,航旅出行方面的知识库仍有待补强。
出租车预订:Siri、Cortana、Alexa均能较好地完成出租车预订。在情景交互上,三者都能与用户进行目的地确认、车型选择、车辆预订等深层交互。功能方面,除了选型和预定,它们还通过整合的地图功能帮助用户规划路线和估算成本。相比之下,谷歌助理因为未整合第三方打车应用,缺乏这方面的交互能力,甚至无法识别打车语义。
总结:谷歌助理在已实现的出行功能上表现最好,主要体现在深度语音交互体验和基础功能的完善度上,但功能覆盖度仍有欠缺,尤其是在第三方应用整合方面。Siri在已实现的功能中整体表现不错,但深度语义分析略逊于谷歌助理。Alexa在出行领域的功能覆盖面最广,第三方应用整合也尽力了,但整合的深度还不够。Cortana的功能完善度与Siri基本持平,但在路径规划的精准语义分析上稍弱。
测试2:邮件场景
表2 邮件场景测试结果
邮件发送:谷歌助理与Siri在邮件发送的交互和功能上最为完善。交互层面,两者都能通过语音实现上下文的关联,对姓名的语义识别度很高,谷歌助理的交互界面比Siri更丰富一些。Cortana虽然也能实现深度语音交互,但在语音姓名识别上错误率较高。功能方面,三者都支持邮件新建、编辑与发送。从应用整合来看,Cortana表现最佳,能与任何Windows自定义的邮件关联;而谷歌助理和Siri分别只支持Gmail和Apple Mail。
未读邮件查阅:Siri是唯一能正确识别并通过语音交互完成新邮件查阅的助手。它能理解语义,调用未读邮件与用户交互,功能上也很好地整合了Apple Mail,能主动调出未读邮件箱。谷歌助理虽然看起来有邮件查阅的功能,但在交互能力、智能化实现以及应用整合方面都尚未完善。Cortana在面对知识库无法解决的问题时,会直接调用Bing搜索来应付。
查阅最近邮件:同样,只有Siri能正确完成最近邮件的查阅。它能理解语义,按时间序列筛选出最近未读邮件,并提供跳转到Apple Mail的便利。谷歌助理和Cortana存在的问题与前面一致。
总结:Siri在邮件场景的情境交互和功能完善度上独占鳌头。这很大程度上得益于苹果作为手机厂商在默认内置应用上的天然优势,整合成本远低于其他对手。谷歌助理在已实现的功能上表现出色,但完整度问题依旧突出,尤其值得注意的是,谷歌助理与Gmail的整合还存在一定障碍。Cortana则暴露了知识库和智能化能力的短板,无法识别的问题直接丢给搜索引擎处理。
测试3:信息场景
表3 信息场景测试结果
信息发送:谷歌助理与Siri在信息发送上表现最佳。两者均能实现上下文的语义关联,全流程通过语音完成交互(甚至包括内容输入),对姓名的语义识别度也很高。Cortana虽然能语音交互,但在信息输入环节无法通过语音完成,且姓名识别错误率较高。功能方面,三者在新建、编辑和发送方面都比较完善。
未读信息查阅:仅有Siri能够识别并很好地完成这项任务。它几乎支撑了全流程的深度语音交互——查阅、咨询是否回复、信息回复,还能配合可视化展现正确的信息功能。功能上也做得相当完善,能智能筛选未读信息,支持语音编辑和信息回复等。
阅读推特信息:Alexa在这方面表现最为完善。它能够实现全流程的深度语音交互,具备上下文关联能力,并能精准识别和播放各类需求。Siri虽然回应其无法查阅推文,但在某些语境下(如推特热点),仍能调用正确的功能。Alexa不仅支持基本的推文阅读,还在语义分析上做了多维度细分,比如“最近点赞的推文”“最近被提及的推文”“最近发送的推文”等。
总结:在信息功能方面,Siri表现最优秀,不仅功能覆盖面广,还实现了全流程深度语音交互,这离不开手机内置信息功能的整合与打通。谷歌助理在已实现的功能上表现不错,但覆盖度仍显不足。Cortana在语音交互上稍逊一筹,且语音识别错误率较高。Alexa虽然不具备信息功能,但在第三方推特功能整合和实现上堪称优秀,还进行了深度语义区分,能够满足各类需求。
测试4:系统基本功能
表4 系统基本功能测试结果
测试的基本功能包括应用开启、系统设备、闹钟设置、备忘录建立与修改、锁屏等设备自带的系统功能。经过测试,Siri与Alexa在各自系统的交互和功能调用上最强。在情景交互层面,四类助手在能识别和支持的语义条件下,基本都能正常打开系统应用。值得一提的是,Alexa在部分系统功能的调用上设置了深度交互功能——比如设置系统时间时,它会询问具体情况,而不是直接调用时间设置功能。在智能实现方面,Siri与Alexa覆盖的功能最为广泛;谷歌助理和Cortana有许多系统功能无法调用,谷歌助理甚至连自家Chrome都无法正常调用。
测试5:翻译场景
表5 翻译功能测试结果
仅有谷歌助理与Cortana具备跨语种翻译功能。两者都能实现翻译需求,并通过语音回复。从智能度来看,谷歌助理在语义理解和语法理解方面远强于Cortana。虽然并未直接调用谷歌翻译,但鉴于其翻译功能表现突出,可以推测谷歌助理在翻译功能上整合了谷歌翻译的能力。
测试6:基本知识场景
表6 基础知识场景测试结果
基本知识:处理基本知识语音问题表现最佳的是Alexa。在交互层面,四类助手只要能理解,都能正常应答。但在智能度方面,Alexa的知识库最为全面,回答问题也最准确;谷歌助理、Siri、Cortana则各有局限,其中谷歌助理能识别的基本知识问题最为有限。面对无法解答的问题时,它们都会转向调用相应的搜索引擎。
新闻:谷歌助理在新闻方面的处理表现最好。在交互层面,谷歌助理、Cortana和Alexa都能很好地识别用户的新闻需求,返回正确结果。智能化方面,各助手均能实现语义精准匹配新闻内容(依赖搜索引擎)。从第三方整合来看,谷歌助理支持的新闻搜索范围最广。
总结:在基础知识问题上,Alexa的知识库最为广泛,能识别不同领域的问题并精准搜索给出答案,看得出Amazon在基础知识库搭建上下了很大功夫。谷歌助理、Siri、Cortana在基础知识语义理解上时常存在偏差,结果未必准确。在新闻话题方面,谷歌助理依然保持精品化特征,整合了大量第三方新闻媒体作为信息源,很好地提升了用户体验。
测试7:体育场景
表7 体育场景测试结果
查询当前赛况(比分):谷歌助理、Siri和Alexa都能很好地完成这项任务。它们能正常识别语音并返回结果,还能精准定位棒球比赛,对各类比赛进行细分,寻找实时比分。
查询比赛赛程与球队现状:四类助手在赛程查询上均表现不错,但都不具备深度交互的能力。更关键的是,除了谷歌助理,其他助手都无法识别“scorer”这个语义,词库完善度还有待提升。
查询赛季冠军:四类助手对足球赛事的识别能力都较弱,无法正确关联“获胜者”与“英超赛事”。
总结:谷歌助理、Siri、Alexa在篮球和棒球话题上表现较好,基本能准确查询赛程和赛况,但在深度交互方面存在上下文关联的问题。Cortana在赛况标签上不如另外三者,说明其对体育赛事实时性的支撑还有待提升。值得注意的是,四类助手在足球赛事上的表现都较弱,这可能与美国地区更偏好篮球和棒球有关——毕竟四类助手均源自美国。
测试8:音乐场景
表8 音乐场景测试结果
播放指定歌曲:所有助手都能识别音乐播放需求并调用媒体播放,但谷歌和Alexa支持的流媒体更丰富。值得一提的是,Alexa是唯一具备交互播放器设置功能的助手。
播放新音乐:仅有Alexa对“新音乐”的语义理解较为准确,能自动扫描并播放最近添加的音乐。虽然与测试预期不完全一致(主要原因在于开发者和测试者对“新音乐”的理解有差异),但相比其他助手的错误理解已经好很多了。
识别外播放器歌曲:Siri与Cortana在识别和深度交互上处理得较好。三者均能通过外播放器的音乐语音识别成歌曲,但只有Siri和Cortana具备进一步交互的能力,能帮助用户搜索歌曲并交互确认是否播放。
总结:Alexa在音乐主题上整体表现较高,主要体现在语义理解和交互功能的完整性上。Siri和Cortana功能也较为完善,但语义理解方面稍有不足。谷歌助理在音乐主题上表现并不理想,优势仅在于整合的第三方音乐流媒体最为丰富。
测试9:天气场景
表9 天气场景测试结果
天气预报:谷歌助理与Cortana在天气预报功能上最为完善。四类助手都能交互并预测具体某一天的天气,但Siri无法完全通过语音交互完成信息回复。在智能化方面,仅有谷歌助理和Cortana能实现上下文关联,支撑深度交互。
天气查询:谷歌助理在天气查询上表现最好。在智能化方面,谷歌助理、Siri以及Alexa都能实现语义的深度理解,能从“带伞”映射到天气情况;但在天气预报方面,只有谷歌助理能做到精准预报,Siri与Alexa只能“问官答官”。情景感知方面,三者基本一致,都能通过语音交互并正常播报天气信息。
总结:谷歌助理在天气场景处理能力最强,尤其体现在语义分析能力上,不仅能实现上下文关联并给出语音回复,还能对语义进行延伸。Alexa的语义分析能力和智能化功能稍弱于谷歌,但基本功能都能实现。Siri在智能化和情景交互方面均弱于谷歌助理。Cortana则表现极端——在天气预报场景效果与谷歌助理基本一致,但在天气查询话题上,无法关联“带伞”与天气的关系,导致无法识别此类问题。
测试10:日程场景
表10 日程场景
日程查询:四款助手均能较好地实现日程查询,但只有Siri做到了上下文关联,能基于已有语境进行深度交互查询。
日程安排修订:Siri在日程修订方面表现最佳。在交互层面,Siri、谷歌助理以及Alexa都能实现语音深度交互(Cortana需要依赖触碰选择)。在功能智能度方面,只有Siri和Cortana同时支持添加和删除功能。值得注意的是,Siri甚至能从日程场景中识别姓名,关联到用户的通讯录。
总结:Siri在日程场景的智能度和功能完善性上最为优秀,这再次得益于苹果作为手机厂商的天然优势——能很好地整合设备内部的其他功能。Cortana基本能实现日程功能,但语音交互层面稍弱于Siri。谷歌助理与Alexa在日程场景中表现一般,部分功能无法实现。
测试11:生活服务场景
表11 生活服务场景测试
周边事件:Cortana和Alexa都能较好地实现周边事件的发掘,并能调用相关信息,通过进一步选择可以查看详细活动信息。谷歌助理与Siri则表现较弱。
周边餐厅:Siri在周边餐厅功能上最为完善。智能化层面,Siri除了能实现另外三款的周边餐厅信息查阅功能外,还支持餐厅预定、评价参考、更多选择等功能,对应的情景交互功能也更加丰富。
周边住宿:只有Siri能很好地完成周边住宿问题的回复。它不仅支持酒店信息查阅,还支持酒店预定、当前状态确认等功能,并且在交互层面具备较好的语义与触碰互动,能完成全流程的功能实现。
总结:Siri在明确指向的生活服务场景中,功能完整性和交互性都很强。它整合了大量的第三方应用来实现这些功能。相比之下,Cortana和Alexa在非指向性的生活服务功能上表现较好。另外也发现,Cortana调用Bing搜索时,有时也经过了语义理解和翻译。
最后总结
综合以上十一类场景的测试结果,我们对四款助手进行了综合评估。下表是谷歌助理、Siri、Cortana、Alexa面对11类话题时,在情景交互、智能度以及功能完整度上的总体表现。
从数据来看,谷歌助理与Siri在场景取胜次数和得分上基本持平。值得注意的是,Alexa紧随其后,甚至在部分话题上超过了谷歌助理和Siri。Cortana的功能覆盖度较弱,仍有很大的提升空间。
谷歌助理:在已实现且整合了谷歌其他应用的测试场景中,谷歌助理表现得极为出色,尤其在深度语义理解方面稍强于其他对手。但问题也很明显——功能覆盖度并不齐全,主要卡在对其他应用的整合上。更值得关注的是,谷歌助理连自家生态内的很多应用功能都未能完全整合。相信随着更多应用的接入,它的功能会变得更强大和完善。
Siri:在已实现的功能模块中,Siri的得分同样亮眼。虽然个别场景的深度语义理解稍弱于谷歌助理,但基于语义理解后的功能纵深做得更好,这归功于它对第三方应用的整合以及整合后的功能调用。另外,得益于手机厂商的先天优势,Siri在手机基本功能和系统功能的智能实现度上强于其他对手。第三方应用的持续接入,也将助力Siri的功能完善度更上一层楼。
Cortana:相比其他三款助手,Cortana稍显逊色。一是智能知识库建立不完善,很多语义无法理解,只能转向Bing搜索处理;二是在已实现功能的纵深度上也不及其他助手。作为一款智能虚拟助理,Cortana还有很长的路要走,包括语义知识库的建立、功能建设以及第三方应用整合等。
Alexa:Alexa的生态最为开放,大多数功能都依赖第三方插件,未来在功能完善度上有极大的想象空间。但需要注意,Alexa虽然在特定场景能准确调用第三方插件,但在功能整合上会稍弱于Siri,尤其是在出行和生活服务场景中表现尤为明显;在语义深度分析上也稍弱于谷歌助理。未来如果能强化语义深度分析能力,并提升第三方插件的功能整合深度,Alexa很有潜力成为一款优秀的智能虚拟助理。
总的来说,智能虚拟助理发展的核心在于以下三点:
- 交互层的情景感知:语音智能助手需要能够对大量非结构化的语音进行识别,并基于AI网络进行响应。交互层的网络深度,直接决定了智能助手功能的完整性,尤其是在已有交互基础上的深层次交互能力。
- 知识库的构建:知识库的规模和类型,决定了智能助手能够响应的场景范围以及各场景下的决策颗粒度。它提供的大量分类数据集,将作为情感交互层学习的重要输入。
- 应用能力的整合:智能助手的功能主要用于用户交互,但功能的最终实现需要通过其他应用完成。这就要求助手能够很好地与第一方或其他第三方应用进行整合,才能确保实际场景化的应用落地。











