是谁成全了我们在吃鸡、狼人杀里的实时互动?
作者 | 唐小引
去年今月,笔者曾撰文一解实时通信技术(RTC)的前世今生,详实地回顾了实时通信技术的演进历程与技术痛点。如今一年已矣,我们经历了直播答题的撒币成兵,玩过了吃鸡、狼人杀,还有微信带着十几亿用户生态大力扶持即点即玩的小游戏、小程序。而另一方面,当 AI 集成进入芯片、系统成为软硬件的基础能力之时,我们在小米小爱、百度小度、阿里小蜜等智能音箱之间来回穿梭,这其中所有应用的共同特性都在于 —— 实时、互动。
从游戏、直播到社交、教育,落地开花的实时互动应用
直播、游戏这些自不必说,实时的音视频传输是其最为主要的功能特性,尤其在社交需求极强的「休闲类小游戏」、「竞技类游戏」上,更需要实时语音来增强社交属性,以进一步提升玩家的游戏时长和用户粘性。而当实时互动提高了平台的活跃度和黏性,平台可以轻松地通过广告、道具、会员等各种各样的方式变现。
从直播连麦、直播答题到「吃鸡」的语音对讲、组队开黑、狼人杀,再到最近有望成为风口的后狼人杀产品「剧本杀」,都是已经被市场印证过的实时通信与全互动直播应用场景。
纵览 App Store,剧本杀 App 们均主打的实时语音连麦
举个例子,在社交、直播等领域,已经拥有了视频群聊、主播 PK、多人相亲、语音电台直播、一起 KTV 等创新玩法,诸如陌陌等社交平台均上线了群组聊天、多个主播连麦直播、语音聊天室等玩法。而现在在社交直播中,同时还有动态实时滤镜支持,通过实时追踪人脸多个特征点,实现实时动态贴纸、360°无死角美颜、自带哈哈镜和颜色滤镜等功能。
而在教育行业,除了传统的语言、K12 培训类的 1 对 1、小班课之外,音乐陪练、STEAM 教学(集科学、技术、工程、艺术、数学多学科融合的综合教育)也越来越多,通过语音识别、图像识别、自然语言处理等技术,实现对儿童的陪伴和教育,达到寓教于乐的效果。
再看微信生态,早在去年 12 月,微信小程序便正式对外开放了实时音视频录制及播放功能,符合微信类目所要求的小程序在自助开通后,可自建或使用云服务,实现单向和互动的音视频功能,如视频直播、互动直播、在线教育、视频会议、远程咨询和视频客服等。
小程序视频连麦逻辑实现图
细分一下,在小程序上可以实现以下更为丰富的使用场景:
线上课堂:1 对 1、1 对多的在线直播课,适用于职业教育、小班教育、学前教育等场景,实现老师、学生实时互动;
视频会议:一秒快速建立多人视频会议,实现高效远程协作;
在线医疗:突破医疗资源的地域限制,以及系统平台限制,实现远程多方视频会诊,降低诊断成本;
在线购物:直播展示商品,同时观众连麦互动,进一步促成交易;
VIP 客服:专属视频客服,1 对 1 实时交流;
银行开户:专用网络,无需安装 App,通过小程序快速实现信息认证与视频开户;
远程报警:从微信小程序实现一键报警,迅速连接相关部门,并通过实时视频通信,使警方能实时掌控现场情况。
当实时互动场景已经随处可见,开发者需要关注什么?
不过,与实时相对的,在音视频通信上一直存在着「低延时」问题。当音视频实时通信的应用场景随处可见之时,对于开发者来讲,除了关注快速实现不同应用场景实时通信之外,更需要斟酌的是,实时音视频传输延时应该如何保证「低延时」,在低延时的同时保证音视频质量,才能满足具体的应用场景。
对于这个问题,CSDN 专门采访了在 RTC 实时通信领域深耕二十多年的资深专家 —— 声网 Agora 创始人& CEO 赵斌,他表示,「当前,通过互联网基础设施,音视频实时通信是可以进行的。但互联网本身并不是为实时设计,因此通话质量基本是靠天吃饭。」
在音视频传输过程中,不同阶段都会产生延时
而声网在实时传输、编解码、视频体验等多方面都有着独到的深度技术方案,比如自建了专门用于实时音视频数据传输的 SD-RTN™ 实时虚拟通信网络,通过智能调度算法来优化网络传输,让即使是在跨国跨州的传输中都有低延迟的保证;以及自研的抗丟包音视频编码器 Agora SOLO™,即使是在 50% 的丢包下,用户都至少可以没有障碍地听懂对方所讲的内容。
如上图所示即为 Agora SOLO™ 的处理逻辑,将包分为 packet 1 和 packet 1’,如果接收端只收到其中一个包,那么就实现一个有限失真的恢复,质量相对稍差。如果收到 packet 2 和 packet 2’,便将两个包合起来实现一个高质量的解码。默认无需等待对当前网络丢包状态的统计,只需直接将抗丟包做到编解码内部。由此首先实现了更低的延时,因为无需判断信道状态而直接发送包;其次是更高质量,收到一个包时质量能够达到普通编解码器水平,而两个包则能够达到高质量编解码水平;其三,面向多人环境,不同人下行网络、丢包均不同;其四,几乎可以不用再做策略调整。
据赵斌介绍,在某些场景下,如合唱,端到端的延时最低可以做到 50ms。「但我们认为,延时的数字大小不能代替最终体验,我们应该从实际的场景和用户体验出发来做权衡。」赵斌如是说道。
而其他如硬件适配、QoE 质量保障等技术难点均已有了相应的解决方案,在此不再做赘述,感兴趣的同学可以阅读《实时互联网的隐形风口》。
RTC 技术起始于人类对于通信的渴求,一路从原始通信、电报、无线电通信、电话到网络通信等走来,经历了长期了技术更迭,并在此过程中协议制定了规范、标准、编码和价格等规则,使网络连接、信息加速。曾经,音视频通信质量受制于网络条件和设备,如今技术仍然还在演进的路上。
对此,赵斌讲道:「RTC 技术远还没有成熟,从采集、编码、前后处理、传输、解码、缓冲到渲染等整个功能流程,我们依然在对技术做深度改善,比如结合人工智能技术,以机器学习来提升传输质量。而在此之中,使用场景的创新与拓展是同时发生的,我们面临着很多来自应用层面的需求。这方面,声网会在 9 月份的 RTC 大会上公布 RTC 与 AI 相结合的一些技术进步,也会在编解码方面分享更多的技术突破。」
实时通信下一城,人工智能、物联网下的延伸
三年前,当移动端盛行即时通讯之时,笔者与 IM 行业人士交谈,便已经被勾勒了一番物与物之间实现通讯功能的实时数据交换,以及人控制设备后,在物与物之上,人和人之间沟通的技术实现场景。比如,当一台物联网冰箱发生故障时,用户只需点击冰箱内嵌的按钮即可一键接通客服,不仅能视频聊天获得帮助,还可以发送相关参数以快速解决问题。
今天,这正在逐渐走向现实。
赵斌表示,「很多云计算公司纷纷将战略重点转移到 IoT 领域,也有很多人说 IoT 是下一个更大的计算和连接平台。如果是这样,声网作为底层实时通信和传输技术服务商,一定会有更大的想象空间,我们已经在 IoT 领域探索并落地了非常多的场景。比如亮亮视野在其第一视角 AR 眼镜实现的远程操控,就是实时通信与 AR/VR 的结合;以及小米小爱音箱,也是在智能家居领域与语音识别技术的结合探索。当然,还有更多在无人车、无人驾驶等领域的探索也是如此,举个例子,我们有一个视频无人机的合作,通过视频远程操作,可以远程操控无人机上的摄像头,比如是否要放到缩小、镜头角度调整等,这样精密准确的无人机在进行视频传输时要保证低延时,跟人的视角是同步的,由此才能确保真正的操控,也可以替代如风电机检修员等高危工种的工作。」
对于 RTC 技术感兴趣或将来可能使用 RTC 技术的开发者们,可以报名参加即将于 9 月 7 - 8 日在北京喜来登长城饭店举行的全球 RTC 行业权威技术峰会 —— RTC 2018 实时互联网大会,来自 Google、声网 Agora、Twitch、The Meet Group 、新浪微博、华为、陌陌、腾讯、VIPKID、陌陌、Bilibili、沪江等知名互联网公司的技术领袖、音视频技术大咖、产品创新专家,以及来自全球 2500 名开发者将在现场一同交流分享,实时如何定义未来。
参考资料:
《小程序互动连麦直播的实现与难点》,https://mp.weixin.qq.com/s/VCSAYGusUFGIirMl0koxGg
《详解音视频直播中的低延时》https://mp.weixin.qq.com/s/XywwxeyE9sUeJfDTNHg69g
《音视频抗丢包技术综述,面向不可靠传输网络的抗丢包编解码器》,https://zhuanlan.zhihu.com/p/30461650