最安全智能音箱Echo被腾讯攻破，秒变监听器

原创： AI前线小组 AI前线 2019-04-09

策划编辑 | Natalie

作者 | Debra

译者 | 无明

编辑 | Natalie

AI 前线导读： 在众厂家一拥而上，想要从智能音箱入手，分得人工智能一杯羹的情况下，智能音箱火了，几乎每家公司都推出了自家的智能音箱产品。先不说大同小异的功能和用途，安全和隐私倒是成了首当其冲的问题，尤其在亚马逊 Alexa 致用户隐私泄漏事件后迅速发酵，成为了已经将智能音箱买回家和计划购买智能产品的消费者最大的顾虑。有人开始对它产生疑问：智能音箱一旦被黑，那不就是往家里堂而皇之地摆了一台大功率监听器吗？

如果说在此之前，关于智能音箱存在安全性的问题都停留在“假设”阶段，那么 8 月 12 日全球最大的黑客比赛中，腾讯把亚马逊 Echo 给黑了，让智能音箱秒变监听器的消息算是实锤砸下来了！现在，还有谁家敢说自己家产品十分安全呢？

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

腾讯黑了 Echo！智能音箱秒变监听器

在 8 月 12 日全球最大的黑客盛会 DefCon 安全会议上，两名中国人演示了如何利用 Echo 第二代智能音箱的漏洞，神不知鬼不觉地在后台对用户进行监听，或控制音箱播放的内容等。除此之外，他们还介绍了如何从 BGA 数据包闪存芯片（例如 EMMC、EMCP 和 NAND 闪存等等）中提取出固件，包括如何通过修改固件内容和重构闪存芯片来开启设备的调试接口并获取到 root 权限，以及如何利用 root 权限远程访问 Echo，并使用音箱来实现用户监听和播放任意音频。

“经过几个月的研究，我们通过使用 Amazon Echo 系统中的多个漏洞成功入侵了 Amazon Echo，并实现远程窃听。当攻击 [成功] 时，我们可以控制 Amazon Echo 进行窃听，并通过网络将语音数据发送给攻击者。”进行解说的两人，是来自中国 腾讯 Blade 团队 的安全研究专家 Wu HuiYu 和 Qian Wenxiang。

事实上，在智能音箱的东风刮起来之前，关于智能音箱被入侵也只是停留在“猜测”的阶段，一直没有所谓的智能音箱遭入侵变成监听设备的消息传出。现在好了，实锤来了！腾讯证明了艺高人胆大，曾经宣称十分安全，铜墙铁壁一般的亚马逊 Echo 也是可以被攻破的，原理也是非常简单：利用 Echo 智能设备互联网，攻击其中某一个设备，攻破后控制整个联网设备，造成致命威胁。

据外媒报道，虽然腾讯的攻击已经打过补丁，但黑客还是能将一系列狡猾的技巧联系在一起，创造出一种错综复杂的多步渗透技术，可以攻击像 Echo 这样相对安全的工具。他们首先拆除 Echo，移除其闪存芯片，编写自己的固件，然后将芯片重新焊接回 Echo 的主板。经过改装的 Echo 将成为攻击其他 Echo 的工具：利用 Amazon.com 上 Alexa 界面中的一系列网络漏洞，包括跨网站脚本、URL 重定向和 HTTPS 降级攻击等，将被黑客攻击的 Echo 与目标用户的亚马逊帐户相关联。

如果他们可以将篡改的 Echo 作为目标设备放到同一个 Wi-Fi 网络上，黑客就可以利用亚马逊扬声器的软件组件，即 Echo 用来与其他在同一网络的 Echo 进行互联的 Whole Home Audio Daemon。该守护进程包含一个漏洞，被黑客发现后就可以通过入侵 Echo 来完全控制目标扬声器，包括能够让 Echo 播放他们选择的任何音频，更可怕的是能够悄悄录制声音，并将其传输给远在天边的间谍。

但是这种攻击有一个严格的限制，那就是受害者和攻击者必须在同一 Wi-Fi 网络上。这意味着，即使硬件被严重攻击，黑客也必须知道知道目标的 Wi-Fi 密码或以其他方式获得网络访问权限。但研究人员认为，Echo 间谍可能会强行破坏 Wi-Fi 密码，欺骗受害者自己安装改装过的 Echo 并将其链接到他们的 Wi-Fi，或者可以在密码广泛共享的环境中对 Echoes 进行攻击，如酒店和学校。

不过，Echo 用户不必为此惊慌，因为腾讯已经将入侵的报告告知亚马逊，后者在 7 月份已经推出修复漏洞方法。亚马逊回应道，用户不用进行任何操作，用户设备已经被自动更新并修复。

亚马逊发言人称，“该恶意攻击需要具有访问设备和修改硬件设备的能力。”然而，让人不安的一点是，黑客虽然需要破解 Echo 的 Wi-Fi 网络，但却只需要在实验室里手动改装自己的 Echo，就可以将其作为攻击的工具。腾讯安全专家说到道，经过训练，一旦获得接触 Echo 的机会，只需十分钟，他们就能够从底板上取出并提取原有固件，在 5 分钟之内将改装好的固件装回去，成功率 100%，他们已经使用这个方法 root 了很多 Echo 设备。

实行此类攻击对硬件的要求很高，且访问目标 Echo 的 Wi-Fi 网络存在一定程度的困难，这可能意味着它不会被用于攻击普通的 Echo 用户。但是，这项花费了腾讯黑客数月时间，还不甚成熟的成果依然可以为针对更高级别目标监听 Echo 的技术提供新的视角，演示智能音箱如何在用户浑然不觉的情况下被入侵，变成监听设备的过程。

事实上，腾讯的研究人员并不是第一个成功将 Echos 转变为间谍工具的团队。去年，英国黑客 Mark Barnes 发布了一项技术，该技术利用第一代 Echo 的物理访问，通过其橡胶底座下可触及的金属触点安装恶意软件。安全公司 Checkmarx 的研究人员后来表示，他们可以远程劫持 Amazon Echo，但只有当用户下载了攻击者的软件扩展（亚马逊称之为“skills”）到设备上才奏效，相当于将恶意 Android 应用程序隐藏到 Google Play 中存储并诱使用户下载它。与腾讯的黑客不同，早期的技术都不代表一种有针对性的，在网络上的 Echo-hacking 技术。

“真正地远程操控 Echo 并不容易，”美国国家安全局精英黑客团队 Tailored Access Operations 前成员 Jake Williams 说道。他指出，这些设备主要通过亚马逊服务器的加密连接，仅接受语音输入和云通信，这限制了黑客创建“攻击面”。不同的是，腾讯的研究人员巧妙地利用了亚马逊的 Echo-to-Echo 网络。

但 Jake Williams 指出，如果间谍能够控制像 Echo 这样的智能扬声器，那么它将成为一种强大的监控设备。例如，与手机不同，它不仅可以直接在设备旁边窃取声音，而且可以听到任何地方的声音。“这些智能扬声器的设计目的是收集房间内的所有声音，聆听并转录它们，”Williams 说。 “一旦被利用，它们就变成强大的监听设备。”

智能音箱的收音和唤醒到底如何实现的？

按照 Williams 的说法，在家里放上一台智能音箱，相当于摆了一个定时炸弹啊，这就有点恐怖了。那么，智能音箱背后的技术原理是什么？安全问题真的这么严重吗？

首先，智能音箱像人一样，需要有一双接收声源的“耳朵”，才能与人声进行交互，这双“耳朵”就是麦克风阵列。这里，我们引用陈孝良在知乎上的回答（https://zhuanlan.zhihu.com/p/24139910 ），来解释一下麦克风阵列是什么，以及它在语音交互中的作用。

简单来说，麦克风阵列由一组按一定几何结构（常用线形、环形）摆放的麦克风组成，对采集的不同空间方向的声音信号进行空时处理，实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等关键技术和功能，进而提高语音信号处理质量，以提高真实环境下的语音识别率。
事实上，仅靠麦克风阵列也很难保证语音识别率的指标。麦克风阵列还仅是物理入口，只是完成了物理世界的声音信号处理，得到了语音识别想要的声音，但是语音识别率却是在云端测试得到的结果，因此这两个系统必须匹配在一起才能得到最好的效果。
因为当前的语音识别基本都是深度学习训练的结果，而深度学习有个局限就是严重依赖于输入训练的样本库，若处理后的声音与样本库不匹配则识别效果也不会太好。从这个角度应该非常容易理解，物理世界的信号处理也并非越是纯净越好，而是越接近于训练样本库的特征越好，即便这个样本库的训练信号很差。显然，这是一个非常难于实现的过程，至少要声学处理和深度学习的两个团队配合才能做好这个事情，另外声学信号处理这个层次输出的信号特征对语义理解也非常重要。

目前在市场上，采用双麦克风阵列和多买可阵列的厂家都有，多麦克阵列虽然识别效果更好，但对适配、计算能力等都有很高的要求，因此采用双麦克风阵列的产品不在少数。

我们可以看到，麦克风阵列其实只是智能音箱进行语音交互的第一步，它负责收集声源。

收集声源之后便是第二步：唤醒。唤醒词的设置很重要，有很多讲究，设置不当会引起严重后果，比如亚马逊 Alexa 泄露用户隐私事故，据亚马逊回应，就是在唤醒词上除了纰漏，因为讲话人在谈话内容中包含了与唤醒词发音相似的词语，导致 Alexa 被误唤醒，开始向云端发送音频。

关于智能音箱唤醒词，很多人关心的一个问题：智能音箱是不是无时无刻不在收集着周围的声音？唤醒词背后的原理是什么？

对于这个问题，思必驰项目总监梅剑雄给了我们答案：

传统的人机交互方式往往需要通过手动按钮来开启，但这种方式在需要解放双手和远场环境中显得力不从心，而且在实际使用中，设备亦不可能一直监听说话内容，此时我们需要一个触发机制，一旦触发，设备就开始分析用户需求，否则设备处于待机状态。
现在唤醒就充当这个触发机制。当用户企图开启带有语音功能的设备时，无需动手，可直接说出“唤醒词”，处于休眠 / 待机状态下的设备检测到用户的声音指令，会从休眠 / 待机状态快速进入工作状态。简言之，语音唤醒即通过预设唤醒词，激活设备的识别引擎，开启语音交互。

由此看来，语音唤醒具有 a) 解放双手，随叫随到；b) 唤醒触发目标角度增强，语音识别，声纹识别，避免设备长时间处于工作状态，达到省电低功耗目的的优势，智能音箱也不会无时无刻监听周围环境，因为消耗太大了。

另外，据腾讯一位智能音箱专家透露，从技术原理上讲，智能音箱不会把未经用户授权的信息上传，而且音箱的通讯链路也是加密的。

关于唤醒词的设置，比较通用的方案，是音箱在接收到语音信号之后，对这段音频进行声学特征提取；当这段音频的声学特征在预设的声学模型上超过了一定阈值时，就会将设备唤醒。从性能和唤醒方便角度，专家建议唤醒词的选择标准如下：

a) 最好 3～5 个字
b) 相邻音节之间的差异尽量大些，避免用叠字；
c) 避免选择多音字，地区发音差异大的字，常见的发音组合；
d) 选择开口大，响度大，发音较清晰的字；
e) 选用非常用词，减少误唤醒的可能。
此外，训练样本量自然是越大越好，可以持续提升唤醒性能。

据了解，目前市场上不同智能音箱产品采用的唤醒词技术原理基本一致，计算平台、算法架构有所不同，比如有的技术方的计算都放在云端，有的放在本地端；每家算法的架构也存在较大的差异性。也正是由于各种差异，才导致完成客户任务的结果有很大不同，不论是从本地端的要求、云端服务器的配置要求，还是任务达成的成功率以及响应速度上等等。

由于今天我们探讨的问题是智能音箱安全性，对技术的讨论就集中在最容易遭到黑客攻击的收集声源这一部分，比如腾讯对 Echo 的攻击就发生在音频收集这一步，后续的音频模型处理等技术部分本文暂不做研究。

虽然据腾讯某技术人员透露，智能音箱从技术原理上就不会把未经用户授权的信息上传，而且音箱的通信链路也是加密的，腾讯听听音箱的系统是封闭的，每个厂商都会谨慎、下大力气投资于自己的安全返破解策略。但只要是在网络上，安全问题就不可避免，“聪明”的黑客自有一千种方法来对付。

根据梅剑雄的说法，包括在 Echo 中安装恶意软件监听 Echo，并把麦克风监听到的数据传送到第三方设备上的入侵方案从理论上来说是可行的，但前提是能够拿到原始录音，并且攻破底层接口。而腾讯 Blade 安全团队攻击 Echo 的成功，也在警醒着我们，即使安全如亚马逊的产品，也还是会存在着安全漏洞，随时可能被攻击。“另外，哪怕不涉及声纹，类似这种家居的产品，如果录音被不法的第三方拿到，会导致不可预计的恶劣影响甚至违法犯罪。正因为如此，在正规产品中，国际上也纷纷出台相应的政策来管控这类非法搜集用户隐私信息的行为。”梅剑雄说道。

因此，用户安全隐私的问题刻不容缓，不是制定一定的安全标准就能解决了的。

安全问题会影响智能音箱推广吗？

据用户反馈，目前市场上的智能音箱多少存在各种问题，如问题识别精准度不够高、“智商”不够等，能实现的功能有限，有些人表示买回家之后新鲜劲一过，智能音箱就只能放在角落里吃灰；另一方面，市面上又有伪智能音箱消磨着消费者的耐心和消费体验；第三点，也是最重要的一点，用户隐私安全问题频出，一定程度上影响到大众对智能音箱产品的信心。例如，Facebook 年内遭遇重大隐私泄漏事件危机，原定于今年 5 月份上市的两款智能音箱 Fiona 和 Aloha 也因此推迟到十月份，并且第一年的智能音箱生产计划减少了两成。另外，苹果的 HomePod 也被指“智商”太低，销量下跌惨重。

接二连三被曝光负面问题，这会影响到智能产品的推广吗？

对此，腾讯专家表示，不管是智能音箱还是其他领域，隐私安全问题都会是厂商的关注重点，也会针对性的持续提升安全级别，不会让这个问题妨碍到智能音箱未来的推广。

虽然专家对智能音箱产品的潜力信心满满，但最后我们还是没有找到解决一个老生常谈问题的有效方案：在人工智能技术带来便利的时代，我们是要方便还是安全？难道这二者只能二择其一吗？没有一种安全又便利两全其美的办法，让我们享受便利的同时没有安全之忧？和所有领域一样，在我们关心的智能音箱领域，安全问题都将是一块“牛皮癣”，长久伴随着智能产品更新换代，我们可预见的，只能是随着更完善的安全标准、政策的制定和技术的进步，将不好的影响最小化。

最后，小编忍不住皮一下：既然腾讯 Blade 团队的技术这么牛，那攻击自家智能音箱叮当，把它变成窃听器可还行？以子之矛，攻子之盾，不知道会有啥结果呢？

原文链接：

https://www.wired.com/story/hackers-turn-amazon-echo-into-spy-bug/

这个技术宅用大数据找对象，现在婚都结了

活动推荐

第二届 AICon 全球人工智能与机器学习技术大会强势来袭，大会设置 8 大专场、汇集机器学习、计算机视觉、搜索推荐、自动驾驶、深度学习、AI 工具与框架、知识图谱、新零售、NLP、GAN 等 20+ 技术热点，邀请国内外 50+AI 领域一线技术专家为大家带来 AI 落地案例干货演讲，扫描下方二维码或点击阅读原文了解详情~

如果你喜欢这篇文章，或希望看到更多类似优质报道，记得给我留言和点赞哦！

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

复旦陈果：低质量的独处，不如高质量的社交，有远见的人都关注了这些微信号