当语音被伪造,这些武大学生……
注意!语音消息能造假?
声纹身份认证无人能破?
当声音变为诈骗的“武器”
深度伪造语音真伪难辨
我们应该如何保护好自己的隐私安全?
快来和珞珞珈珈一起
走近珞珈山下的这支团队
认识这款“伪造语音检测系统”
打假!伪造语音克星
随着人工智能技术的快速发展,声纹识别系统已经在社会上广泛地应用,尤其是在金融领域已经有了较多的应用实例。然而,在日常应用中,使用一些简单的伪造语音攻击技术能够轻易地欺骗支付宝、微信、建设银行APP和科大讯飞开放的声纹登录及科大讯飞开放的声纹认证API,这引起了人们的担忧与恐慌。
有没有一门技术专门应对伪造语音攻击,保护人们的声音与隐私安全?这个问题成为了许多人想要攻克的目标,来自武汉大学的一支学生团队,提出了新的研究思路。
在不久前落幕的“华为杯”第一届中国研究生网络安全创新大赛中,来自武汉大学国家网络安全学院的伪装语音检测队,带来了“基于信号微观相关性的伪造语音检测系统”项目,斩获创意作品赛一等奖,也得到了现场专家的一致好评。
该团队由武汉大学国家网络安全学院任延珍教授担任指导老师,成员均为武汉大学国家网络安全学院的研究生,2022级博士生刘武洋担任队长,其他成员分别为2021级硕士生邓俊龙、彭荔、朱洪承。
什么是“伪造语音检测系统”?
“语音伪造检测的相关研究近几年越来越多,但是现有方法网络结构单一,而且泛化性(模型检测训练集外样本的能力)较差。我们课题组长期研究语音信号隐写分析相关领域,发现伪造语音在合成时更注重与真实语音听感相似,不会关注信号和特征上的相似性,在信号微观层面可能会具有生成方法的固有特征,在微观层面和真实语音会存在较大差异,并且通过早期实验验证了这个想法,所以就继续做了下去。”提及为什么选择该选题,团队成员刘武洋如是说道。
针对现有声纹认证系统对于伪造语音攻击的脆弱性,研究团队提出了基于信号微观相关性的伪造语音检测系统。作为声纹识别系统的前置模块,该系统从语音中提取多尺度、不同层次的语谱图帧间、帧内的微观相关性特征,利用ViT网络学习深度特征表示,可以在进行声纹认证之前先对语音的真伪进行判断,在抗伪造攻击的综合性能、实时性和可移植性上都取得了较好的结果。“就像拿着不同放大倍率的放大镜,捕捉不同层次的特征。”
“语谱图的横轴代表时间,纵轴代表频率,每个点代表这一时间、这一频率上的信号强度。如果把语谱图想象成一幅画,基于信号微观相关性的检测系统,就是拿着放大镜去比较画上每个像素之间的相关性。真实的语音笔触连贯、浑然一体;伪造的语音虽然远看相似,但在放大镜下就可能断断续续、有算法生成的痕迹。”
“伪造语音检测系统”的关键技术在于信号微观相关性特征的提取,该技术思路源于图像信息隐藏。中间点的像素值,用其周围8个点的像素值表示,相当于一种加权平均,权重越大说明相关性越强。
“在相关性强度拟合中,首先预处理模块将输入音频转换为语谱图,然后用多元线性回归模型来拟合出语谱图上每个点与其周围八个点的相关性强度,也就是语谱图的帧间、帧内相关性。”
“我们发现语谱图在垂直和水平两个方向的相关性比较密切,所以就设计了四种不同的固定参数卷积核。沿用之前的比喻,这四个卷积核代表的就是放大镜移动的方向,使其沿着相关性最强的两个方向(水平、垂直)寻找特征。”刘武洋介绍道。
这种方法实现了对相邻帧的同频段变化特性和帧内不同频段特性差异的提取和分析,较传统时域语音信号的特征分析有良好的性能提升。
那么这套“武大造”伪造语音检测算法,相较于现有的其他算法有什么优势呢?据刘武洋介绍,该方法从隐写分析的思路出发,提出了基于语音信号相关性的伪造语音检测方法,通过分析微观信号帧内与帧间的相关性,判别样本的真伪,平均错误率低于5%,优于大多数现有算法。
同时,考虑到不同窗长的语谱图所捕捉的特性不同,该方法采用了基于多尺度语谱图的特征融合技术,以三种不同的窗长来生成不同长度的语谱图,对不同长度的帧进行特征分析。多尺度语谱图的融合使得模型捕获的时域和频域信息更加丰富,进一步提升检测正确率。
难忘“疫情”下的备赛时光
“在得知赛事相关讯息后,学院和导师很重视,我们也想展示一下最近的科研成果,希望能够得到评委们的指导,就报名参加了。”带着想要更进一步实践的信念,团队4人义无反顾地踏上了备赛之路。
备赛过程中,队员们都背负了不小的压力,得知进入决赛后,他们的节奏更紧凑了。“我们先召开了两次小组会,确定分工,整理修改思路;接着一起收集资料,进行算法的开发和完善;最后完成系统界面的开发及ppt的制作。”
受疫情影响,团队所有的准备工作以及小组讨论都只能线上开展,尤其在临近决赛的时候,成员都还处于“分离”状态,不能够聚在一起,但是大家分工明确,反复修改演练,最后在答辩展示中呈现出了最好的效果。
谈及这段难忘的时光,大家分享着自己的独家回忆。“在遇到困难时,我们会互相鼓励,共同解决问题。”“学院全力保证我们的正常生活水平,导师也远程指导我们,提供了很多建设性意见。我们准备充分,发挥出了应有的水平。”
了不起的“声音守护者”
在大赛闭幕式演讲中,评委对“伪造语音检测系统”项目给出了很高的评价:该系统能够较好地防御现有的伪造语音攻击,对于声纹认证系统的防护具有重要意义。
当下,人工智能的语音识别技术已经成为人们生活中不可或缺的部分。然而,随着各类语音合成技术的商业化和平民化,未来以伪造语音为载体的诈骗行为也让人防不胜防。它们可能危害到个人的财产和名誉,影响到诉讼的胜负,抑或通过伪造知名人士的言论,危害社会的稳定。而“伪造语音检测系统”这样一款产品的出现,能够帮助人们迅速识别骗子的“伪造语音”,在一定程度上减轻损失与危害。
团队成员介绍,这套系统可以应用于声纹识别系统的防护,常见场景如智能家居(小爱音箱)、移动支付认证(支付宝、微信、建设银行APP的声纹认证)和安保系统(如声纹锁)等。本系统可以作为声纹识别系统的一道前置防线,在语音进入系统前先验证其是否为伪造,从而保护系统不受伪造语音攻击。
“期待未来可以将检测模块移植到各大语音助手或声纹识别系统中,保障系统安全。”无论是从技术层面还是商业层面,“伪造语音检测系统”都具有良好的应用前景,能够为当前信息时代的司法取证、电子商务、金融系统、安保系统等不同领域提供安全高效的伪造语音防御支持,防范伪造语音给社会带来的安全隐患,保护人们的身份和隐私,提高整个社会的安全感和幸福感。
对学弟学妹,他们想说……
“建议学弟学妹们多去尝试,找到自己感兴趣的方向,沉下心去做科研;同时也要和其他相关领域的研究者多沟通,扩展自己的视野;遇到与研究方向相关的竞赛,有条件的可以多试试,锻炼自己的科研能力和表达能力。”
应对语音深度伪造挑战
攻坚声学前端技术难题
武大人始终坚持创新
瞄准科技前沿,勇攀科技高峰
让“声音重新属于自己”
让“科技”造福于民
·推荐阅读·
武大书记、校长共致新年献词
习近平发表二〇二三年新年贺词
武汉大学新年月历,专属于你!
● 【提取码:2023】武汉大学新年月历,专属于你!
● 迎着新年第一缕曙光,武大书记、校长共致新年献词
● 国家主席习近平发表二〇二三年新年贺词
● 武汉大学2022年度十大新闻及新闻人物,揭晓!
● 2022年最后一波表情包,妙啊
● 武汉大学130周年校庆,正式启动!
感谢武汉大学国家网络安全学院
封面图:武汉大学融媒体中心
图片来自于受访者
采访&文案&编辑:张华责编:张华审核:邢知博
为“声音守护者”点个“赞”,再点个“在看”