查看原文
其他

人类高质量通话


“朋友们各自留在家里,不用出门也能互相交谈的日子就要到来了!”


1876年3月,成功完成人类首次远程通话实验后,亚历山大·格雷厄姆·贝尔在给母亲的信中写下这一预言。自那以后的一百多年,人类一直在探索跨空间远程通话,希望“原音重现”。但是直到今天,高质量的音视频通讯仍然面临重重挑战。


语音通讯的技术处理链条非常长,简单的一句话要经过采集、处理、编码、分发、接收、解码、后处理及回放多个环节,并且最终体验效果遵循“木桶效应”,任何一个环节的短板都会对整体体验有着决定性的影响。


从QQ开始,为了实现高质量音视频通讯, 腾讯的研究员们已经努力了二十多年。2020年,腾讯天籁实验室成立,以心理听觉的发音和感知模型为基础,融合感知编码、声学硬件设计、经典语音信号处理和深度学习技术,适应不同应用场景和终端设备,致力于提供高清、纯净、流畅的音频通信体验。


这是一个盛产“黑科技”的实验室,除了支持拥有超过一亿用户的腾讯会议外,其最新代表作是“天籁语音模组”——一个专门面向会议室场景的,在腾讯AI-Lab技术加持下的一体化音视频通讯解决方案,包含麦克风阵列声学和电路设计、音频处理核心算法和测试标准等核心技术


“天籁语音模组”集合了多个刷新业界记录的黑科技,比如,超过12米的长距离拾音、超过200种的会议噪声消除、双讲及通透双工回声消除等,旨在打造会议室场景下的“顺风耳”。 




12米+远场拾音


为什么是12米?


“因为我们目前产品测试使用的最大会议室距离就是12米,我们可以轻松支持12米距离的拾音,更远一点当然也没问题。”


这并非“凡尔赛”,“12米”是天籁实验室能拥有的最大的会议室测试环境,但这还不是产品的性能极限。要知道,在同等条件下,业界同类产品一般只能支持5-8米的拾音距离。


世界上最遥远的距离,是开会时我站在你“面前”,却像隔着银河。“远距离拾音”是一项非常复杂的技术,其中的一个关键概念是信噪比——声音的传播距离每增加一倍,能量会衰减6个dB,导致信噪比的恶劣程度会达到负10、负20的程度。同时,会议室里空调噪声、环境噪声充满整个拾音频带,这些声音对远场语音处理会产生比较大的困难。


12米的远距离拾声技术,解决的是会议室中说话人离拾音器比较远的情况。比如,一位员工跟领导坐在一起作工作汇报,因为他汇报的对象就是身旁的领导,而不是会议远端线上接入会议的人,所以通常他说话不会特别大声,设备能够拾到的语音质量就很差。


解决这一问题,这需要多方面的技术融合,其中包括电路、声学、算法以及麦克风等。除此之外,还有一个关键技术,叫双工通信。“双工”就是两个人同时讲话。在回声抵消技术尚未成熟时,实时音频通话只支持单工通讯。


在线上实时语音对话中,我们讲一句话时,以为对方已经听到了,但是可能对方遇到了延迟。结果你已经开始讲第二句、第三句了,对方还在第一句。大家沟通不在一个频道上,容易产生一些情绪焦虑。

在远距离条件下,由于语音能量到达麦克风的时候非常弱,要保证非常好的双工效果具有很大挑战。天籁模组通过声学电路设计和深度学习模型相结合,从回声混合语音信号里有效地分离、提取说话人声音,在这个技术难点上获得了突破。


使用基于机器学习的回声抵销的技术,可以更好地解决滤波器收敛的问题,进而对于滤波器在非线性失真下面的收敛问题,能够给出一个更快的收敛速度,这样对整个残留回声的消除会消除得更加彻底。



|用深度学习识别超过200种噪音


要实现会议场景下高清通话,首先要回答的问题是👇


有哪些噪音是在会议室经常遇到的?


有一天,团队正在开线上会议,外边忽然下起了大雨,会议另一端的人听着非常嘈杂,纷纷询问发生了什么事。一瞬间,大家突然醒悟过来,意识到雨点噪声对会议的影响,并开始研究技术解决方案,成立专门团去采集雨点打到玻璃窗上的声音。


除了雨点声,他们还采集了公交车开门的声音、餐桌上吃盒饭的声音、关门声、水杯放在桌子上的声音、咳嗽声、微信消息提示声和敲键盘的声音等等。


目前,团队累计采集了不同会议室内两百多种声音。他们把采集下来的声音作为噪声,将经典信号处理与深度学习结合,通过 AI 训练来实现降噪,目的是在开会期间滤除噪声,只把安静的语音传输给对方。



|信号不好?有丢包补偿|


网络是决定音视频通话的关键环节,在视频会议中常遇到的网络不稳定,在停车场、楼梯拐角以及一些人群密集的地方进行线上视频会议,就会经常遇到听不见或者听不清的情况。


为解决这一问题,天籁实验室深入探索了“丢包补偿”技术,对整个信号的语音参数进行建模,然后用深度学习技术对参数进行预测,将预测出来的参数进行重建,以获得新的语音信号。


这一环节要在秒级别的时间内完成,才能不影响会议的正常进行。现在丢包补偿从最开始只能补40毫秒到60毫秒一直推进到超过100到120毫秒丢包补偿,并可以在用户无感知的情况之下完成




身远隔重洋,音犹在眼前


对于拥有大量尖端技术的天籁语音模组,天籁实验室也强调:它不是硬件,而是一整套综合解决方案。“不做硬件,做连接”,是团队的一大共识。


7月21日,腾讯会议宣布,目前生态合作伙伴已突破100家,并与罗技、MAXHUB、newline、亿联网络等硬件厂商发布多款腾讯会议Rooms专款解决方案。通过API和模组的方式,可以将天籁实验室的最新技术与行业软硬件生态合作伙伴打通,在比较复杂、比较恶劣的声学场景下面也能提供一个清晰、流畅和安静的音频体验。


当下,天籁语音模组最核心的能力仍然是解决会议室场景下远场拾音,未来,这种远场的拾音能力将在更多的场景下进行接入,让用户在更广泛、更复杂的物理声学空间实时交流和交互。


就在电话开始广泛使用后,著名的贝尔实验室成立,从事包括电话交换机、电话电缆、半导体等电信相关技术的研究。后来的故事,大家都知道了——晶体管、信息论、Unix以及C语言、C++和S语言都出自这所实验室,同时,贝尔实验室还走出了9位诺贝尔奖科学家。


对于腾讯天籁实验室来说,未来也同样充满想象。短期内,团队的目标是让线上的远程通信体验达到跟线下面对面交谈一样的自然、现实,真实。面向更远的未来,还有增强现实以及语音识别和理解技术,可以让线上通讯的效率和效果与线下相当,同时提供额外的价值。


—END—

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存