Alexa，黑掉你自己：亚马逊Echo可能在背着你搞事

图片来源@视觉中国

像亚马逊 Echo Dot、Google Home Mini 这样的小型智能音箱，价格非常便宜，功能也非常强大。调查显示，疫情之前这两个智能音箱系列的渗透率在美国达到了35%的家庭，预计在2025年将会达到75%

不过，几位来自英国和意大利的安全研究者最近发现，亚马逊的 Echo 智能音箱存在一个相当棘手的社会工程学漏洞。

这个漏洞能够让攻击者激活并劫持音箱，背着用户进行各种操作。影响方面，除了侵犯了用户隐私之外，还可能导致更加严重的财产损失，甚至人身伤害的风险。

离谱的是，这个漏洞并不需要什么复杂的黑客代码，只靠 Echo 音箱自己就可以实现——简单来说，Echo 音箱通过音乐和电台技能 (skill)，如果播放了某段特定的音频，而音频当中包含了某个特定的触发词/指令，漏洞就被触发了。

研究者将这个漏洞命名为 Alexa versus Alexa (简称 AvA)——顾名思义，就是 Alexa（亚马逊的虚拟语音助理）自己黑掉自己……

体验越好，漏洞越大

为了让智能音箱和语音助理产品被更多人使用，厂商们都在研究如何进一步提升体验。然而，很多设计初衷是为了提升体验的功能，都给用户添了麻烦，甚至还有可能成为本文所讨论的安全漏洞。

包括 Siri、Google Assistant (GA)，Alexa 在内的虚拟语音助手，都会保持麦克风开启，因为它们需要监听 "Hey Siri", "Ok Google", "Hey Alexa" 等唤醒口令。然而因为识别并不是完全准确的，这些虚拟语音助手经常会被误触发——苹果手机用户过去经常遭遇此类情况。

研究者发现，除了识别不准之外，Echo 音箱还有另一个问题：它对自己发出的声音的干扰排除能力不是很好。简而言之，如果我们让 Echo 去播放一段音频，而这段音频当中正好包含了能够控制 Echo 去做其他事情的命令——结果，Echo 就会给自己发号施令。

经过测试，被这种方式劫持的 Echo 所能做的包括并不限于：播放音频文件或在线电台、监听房间内的对话、调整闹钟、修改用户日历项、给任意号码打电话、操控智能家庭设备，甚至用主人的亚马逊账号在网上乱买东西等……

让我们来更详细地看一下这个漏洞的攻击方式：

1）首先，黑客制作一段听起来完全没有问题的音频文件，比如一首歌，或者一个 podcast，并且在音频文件中加入能够激活 Alexa/Echo 并且让其执行特定操作的命令；

2）黑客有两种攻击角度可选：在距离攻击对象家的足够距离内，用手机蓝牙链接 Echo 音箱，然后播放音频（下图中的1.2），也可以直接把音频做成在线电台，通过社工学的方式让攻击对象 Echo 播放（下图中的1.1）；

注意：Echo 无需安装额外应用就具备播放在线电台的技能 (Skill) ，这些技能是在云端运行的（如上图右侧所示）。并且，任何人都可以自己开发类似的技能，发布到亚马逊的 Alexa 技能商店里。虽然亚马逊会对首次发布的技能进行安全核查，但开发者仍然可以在后续更新中加入恶意代码，并且不会被亚马逊发现。

3）Echo 播放了可疑的音频文件，接受了音频中的指令，就能够在用户不知情的前提下进行各种操作，给用户添麻烦，比如修改甚至取消闹钟，让人睡过头；开关智能灯泡，让人以为家里闹鬼；修改日历项，让人错过重要事情等等；

不要以为这些都是无害的小玩笑，这个漏洞完全可能导致更严重的隐私泄露、财产损失和人身危险。

举三个场景为例：

此次漏洞被命名为 CVE-2022-25809：

研究的结果也已经写成了论文：

受影响产品和严重程度

令人担忧的是，如果结合前面提到的在线电台（远程）和蓝牙连接（现场）这两种攻击角度的话，这一漏洞的凶险程度是非常高的：

研究人员已经将这次的主要漏洞 AvA，以及顺道发现的另外两个小漏洞 Full Volume 和 Break Tag Chain 的资料直接提交给了亚马逊。

漏洞的验证和复现工作是在第三代 Echo Dot 上进行的，不过研究人员指出：三代和四代的所有 Echo 智能音箱产品都存在此漏洞。

亚马逊将漏洞严重性评为”中级“，并且也在最近对受影响的 Echo 产品发布了补丁更新（版本号：3代6812454788，4代 6409855108）。

这次补丁在一定程度上降低 Echo 设备被自己所播放内容当中的触发词激活的几率，然而它并没有完全补上漏洞。因为正如我们在前面所提到的：这个漏洞并非由代码缺陷，而是由功能设计所导致的。

原则上，只要 Echo 音箱还是麦克风全时开启监听触发词，只要技能 (skill) 的发布、审核和调用机制保持现状，只要 Echo 为了确保使用体验而不在特定操作的时候进行用户身份验证——这个漏洞就将继续存在。

研究人员指出，想要对抗这一漏洞，有几种思路可以参考：

1）压制智能音箱被自己播放的内容触发的能力：这一点上，Echo 已经有了类似的机制设计，采用了多麦克风阵列可以更加准确地侦测语音命令的来源方位，便于判断命令来自于用户还是自己。

2）检测语音命令的声波信息：如果声波当中包括了人的声道发不出来的低频声波，则有很大的几率是来自自己或者另一台扬声器。

3）在更多的场景里严格使用已知用户的声音：很多智能音箱在初次设置的时候，都会让用户多说几句话，这样就能听出来说话的人是谁，从而有针对性地完成操作。然而至少对于目前 Echo 音箱来说，它并不会在进行高风险操作（如支付、操控其它智能设备）的时候验证命令是否来自已知的用户。亚马逊应该在这一点上进行优化。

如果正在阅读本文的你也在用 Echo 音箱产品，可以检查一下设备是否已经更新到最新版本。

一般来说，我们还是可以正常使用智能音箱的，但如果你实在担心音箱被劫持的话，可以在长时间不用的时候（比如出门前）把音箱上的麦克风完全关掉，只要按下麦克风的按钮，指示灯变为红色就可以了。

关键词：