该内容已被发布者删除 该内容被自由微信恢复
文章于 2022年11月11日 被检测为删除。
查看原文
被用户删除
其他

科学家证实可通过分析面部振动,直接推断说话人身份和语音内容,或给用户带来更严重的安全风险

LXS DeepTech深科技 2022-11-08 20:30 Posted on 北京


如今,电子设备的隐私泄露事件和话题十分受到关注。一般情况下,手机等设备上都有麦克风和摄像头,以及各种传感器,一旦授予它们某些权限,就能够收集用户的相关信息。


但现在科学家发现,通过分析人的脸部振动特征,就能获取用户的身份、性别、语音内容等多种敏感信息。


研究人员表示,虚拟现实技术的日臻成熟让头戴式 VR/AR 设备被广泛应用于各种娱乐及消费行业。这些设备的操作方式也从传统的控制器向语音操控转移,以便让用户更方便地控制设备、输入信息或执行网络交易。


但攻击者可利用动作传感器(无须用户授权)捕捉用户使用语音接口时的脸部振动,实现对用户的语音窃听。


在计算机网络及移动计算领域国际顶级会议 ACM MobiCom 2021 上,相关论文以《Face-Mic:通过 AR / VR 动作传感器捕获的微妙面部动态来推断实时语音和说话人身份》()为题发表。


罗格斯大学电子与计算机工程系主任、IEEE Fellow 为通讯作者,新泽西理工学院计算机系助理教授担任第一作者。这项工作的合作者还有德州农工大学计算机科学与工程教授尼特什·萨克塞纳()、田纳西大学电气工程与计算机科学系助理教授、上海交通大学计算机科学和工程系副教授俞嘉地。和均是教授的博士生,毕业于罗格斯大学。


图 | 陈迎迎(来源:)


通过脸部振动获取敏感信息,可能是很容易被人忽略的点。谈及做这个研究的原因,表示:“我们之前进行了很多关于运动传感器的工作,比如智能手表、智能手机,授予传感器权限就能够使用数据。随着 VR 设备越来越流行,会有更多的人用语音来控制设备。而人在说话时,脸部的往复振动会嵌入一些语音信息,浸入式头盔的传感器就能提取上面的信息。但是能提取到什么样的程度,还有待研究。”


图 | 利用脸部振动窃听 AR/VR 用户的敏感信息(来源:ACM MobiCom 2021)


她还提到,由于语音含有大量敏感信息,大部分 AR/VR 厂商会严格控制旗下浸入式头盔麦克风的使用,通常需要用户授权才能开启。而为实现用户与虚拟世界交互,目前所有 VR 应用都需要配备动作传感器(包括加速度计和陀螺仪),但其数据的获取则无需用户授权。


据了解,人的面部肌肉在语音产生的过程中会有一定的模式(收缩和放松),说话的节奏和响度等因素,都会对脸部的振动产生不同的影响。由于浸入式头盔和脸部肌肉是直接接触的,头盔内置的动作传感器捕捉到脸部的往复振动后,进一步分析收集的数据便可知道说话人到底在说什么。


还表示,他们主要分析了两方面由声音引起的振动,即脸部(肌肉、骨骼)和声带的振动。


无须任何授权,Face-Mic 获得用户身份和性别信息的准确率高达 97%


为了具体验证该研究的可行性,课题组组人员设计了首个利用脸部动态实现对语音等敏感信息窃听的攻击装置——Face-Mic。


他们募集了 45 名志愿者并且在 4 种主流的浸入式头盔(比如 Oculus Quest、HTC Vive、Google Cardboard 等)上验证了该攻击的可行性。


图 | 实验中使用的两种浸入式头盔(来源:ACM MobiCom 2021)


首先,Face-Mic 利用安装在浸入式头盔的 VR 应用采集动作传感器信息,再使用一个信号源分离算法提取语音相关的脸部动态,同时去除用户使用浸入式设备时肢体运动带来的影响。


通过对脸部动态的研究,研究团队发现脸部肌肉运动与骨振动在动作传感器上有不同的频域响应。因此,Face-Mic 使用两个不同频带的带通滤波器分别提取脸部肌肉运动信号和骨振动信号。


图 | 用户发声引起脸部肌肉运动及骨振动(来源:ACM MobiCom 2021)


对于每一种脸部动态,Face-Mic 基于其对头盔的三维加速度、速度以及位移的影响来提取用户脸部动态特征和语音特征。


利用这些特征,团队经过反复测试,设计了一种基于卷积神经网络的深度学习模型,来找出肌肉运动/骨振动特征和用户身份、性别、语音内容之间的对应关系,进而实现敏感信息窃听。


实验结果证实,Face-Mic 可以成功获得用户的身份和性别信息,准确率高达 97%。对于更复杂的语音识别,也可以获取单词、数字等内容。


图 | 用于获取敏感信息的神经网络(来源:ACM MobiCom 2021)


采用深度学习模型分析人脸特征,窃取用户敏感信息


另外,研究用深度学习模型使用动作传感器数据和真值信息(比如语音内容)作为训练集。值得一提的是,由于攻击者在很多情况下无法直接采集到用户的语音信息做训练,团队进一步设计了一种适应性训练方法,通过使用已有用户的真值信息来训练模型,再用其识别未知用户的敏感信息。


对此,提到:“这其实是一个很重要和比较难的点。我们尝试用了各种深度学习模型及算法,最后选择了一种领域适应方法,即用其他已知用户的语音信息作为模型训练的数据集。实际上是采用预对抗训练,消除已知用户和未知用户之间的语音特征差异,然后将从已知用户那里学到的知识,转移到针对某个未知用户的隐私信息识别任务中。”


她还表示,现阶段或者未来,VR/AR 头盔上的动作传感器是一定会用到的,其是一个最基本的传感器,用来感知头部的运动。而读取动作传感器数据无需任何权限,因此,很难去避免攻击者用它来收集用户信息。


当然,厂商可以在动作传感器的信息里面加入一些随机的因素或者是注入一些噪声,来避免这个攻击。但是加入噪声其实会造成一些问题,动作传感器的应用场景非常广泛,那么它原来的那些应用的精度都会受到影响,所以这不是一个容易解决的问题。


“另外,用这种方式窃取用户信息算是一个比较简单的事情,操作起来还是相对容易的,”说到,“我们在主流的 AR/VR 平台和更广泛的 OpenVR 平台上都验证过 Face-Mic 的可行性,并用 Oculus Oculus 的 SDK 构建了一个 AR 应用程序,在没经用户同意的情况下成功进行了后台记录,证实了能够轻易获取用户动作传感器的数据。”


基于网络平台的攻击,会带来更严重安全风险


该团队在接下来的工作中,会尝试使用网络平台来采集用户动作(传感器数据)。现在他们正在搭建兼容 AR/VR 编程平台的网站,从登录这个网站的用户中提取传感器数据。


“基于网络平台的话,其实是一种更加有效的攻击方式,它不需要用户安装任何应用程序,从而会带来更严重的安全风险,”补充说,“然后,我们其实还有很多工作,比如我们发现像 Google Home 这样的语音辅助系统,其实也很容易受到攻击。因为该系统里储存了很多用户的敏感信息,像日程表、个人喜好等。我们现在在做一些新工作就是怎么样能够通过将两个振动和声音结合起来,用智能手机等提高语音辅助系统的身份验证功能。”


值得注意的是,目前元宇宙的发展如火如荼,AR/VR 设备使用场景越来越广泛、普遍。鉴于所有虚拟现实应用都需要使用动作传感器来捕捉用户动作,但又不需要任何许可,这不同于往往需要用户来授权的传统基于麦克风的攻击。


因此,攻击者可以很容易地收集到大量传感器数据,用户的个人信息更容易泄露。比如,电话号码、身份证号码、应用登录密码、医疗保健信息等,都面临被盗风险。


用户信息可能被用于违法犯罪,或被卖给广告商。这除了让用户的安全和隐私处于高风险之中外,未来也或许会对 VR 和元宇宙的普及带来严重影响。


最后,还表示,她一直和南京大学、上海交通大学和浙江大学等高校有着科研合作,回国都会与他们的老师和学生做交流。她的学生也有在这些学校做老师。


据了解,博士毕业于美国罗格斯大学计算机系,本科就读于南京大学物理系,研究领域主要包括应用机器学习、移动计算和传感、网络安全和隐私、物联网、智能医疗等方面。她是无限感知、定位系统及移动安全研究领域的先驱者。


她现任罗格斯大学电子与计算机工程系系主任、终身正教授和讲座教授。同时还担任国际计算机协会信号与移动计算小组执行委员会委员、美国国家科学基金会专家组成员/项目评审专家、也是现任美国五大国家无线网络实验室之一的无线信息网络国家实验室负责人。


目前合著出版了三本专著《Securing Emerging Wireless Systems》、《Pervasive Wireless Environments: Detecting and Localizing User Spoofing》、《Sensing Vehicle Conditions for Detecting Driving Behaviors》,并发表了超过 240 多篇期刊文章和参考会议论文。


她还是国际电子电气工程师学会院士(IEEE Fellow)、美国国家发明家科学院院士、亚太人工智能学会会士,曾多次担任移动通信领域和安全领域国际一流会议的执行主席和程序委员会联合主席。



参考资料:
1.Cong Shi, Xiangyu Xu, Tianfang Zhang, Payton Walker, Yi Wu, Jian Liu, Nitesh Saxena, Yingying Chen, and Jiadi Yu, "Face-Mic: Inferring Live Speech and Speaker Identity via Subtle Facial Dynamics Captured by AR/VR Motion Sensors," in Proceedings of the 27th Annual International Conference on Mobile Computing and Networking, pp. 478-490, 2021.


您可能也对以下帖子感兴趣

基于高性能商用密码的电信领域防护实践
新中国工业化的高级科技人才来自哪里--从德国总理访华想到的
Meta VS 字节,VR眼镜中美企业谁赢?

文章有问题?点此查看未经处理的缓存