是谁成全了我们在吃鸡、狼人杀里的实时互动？

原创：唐小引 CSDN 2018-08-20

作者 | 唐小引

去年今月，笔者曾撰文一解实时通信技术（RTC）的前世今生，详实地回顾了实时通信技术的演进历程与技术痛点。如今一年已矣，我们经历了直播答题的撒币成兵，玩过了吃鸡、狼人杀，还有微信带着十几亿用户生态大力扶持即点即玩的小游戏、小程序。而另一方面，当 AI 集成进入芯片、系统成为软硬件的基础能力之时，我们在小米小爱、百度小度、阿里小蜜等智能音箱之间来回穿梭，这其中所有应用的共同特性都在于 —— 实时、互动。

从游戏、直播到社交、教育，落地开花的实时互动应用

直播、游戏这些自不必说，实时的音视频传输是其最为主要的功能特性，尤其在社交需求极强的「休闲类小游戏」、「竞技类游戏」上，更需要实时语音来增强社交属性，以进一步提升玩家的游戏时长和用户粘性。而当实时互动提高了平台的活跃度和黏性，平台可以轻松地通过广告、道具、会员等各种各样的方式变现。

从直播连麦、直播答题到「吃鸡」的语音对讲、组队开黑、狼人杀，再到最近有望成为风口的后狼人杀产品「剧本杀」，都是已经被市场印证过的实时通信与全互动直播应用场景。

纵览 App Store，剧本杀 App 们均主打的实时语音连麦

举个例子，在社交、直播等领域，已经拥有了视频群聊、主播 PK、多人相亲、语音电台直播、一起 KTV 等创新玩法，诸如陌陌等社交平台均上线了群组聊天、多个主播连麦直播、语音聊天室等玩法。而现在在社交直播中，同时还有动态实时滤镜支持，通过实时追踪人脸多个特征点，实现实时动态贴纸、360°无死角美颜、自带哈哈镜和颜色滤镜等功能。

而在教育行业，除了传统的语言、K12 培训类的 1 对 1、小班课之外，音乐陪练、STEAM 教学（集科学、技术、工程、艺术、数学多学科融合的综合教育）也越来越多，通过语音识别、图像识别、自然语言处理等技术，实现对儿童的陪伴和教育，达到寓教于乐的效果。

再看微信生态，早在去年 12 月，微信小程序便正式对外开放了实时音视频录制及播放功能，符合微信类目所要求的小程序在自助开通后，可自建或使用云服务，实现单向和互动的音视频功能，如视频直播、互动直播、在线教育、视频会议、远程咨询和视频客服等。

小程序视频连麦逻辑实现图

细分一下，在小程序上可以实现以下更为丰富的使用场景：

线上课堂：1 对 1、1 对多的在线直播课，适用于职业教育、小班教育、学前教育等场景，实现老师、学生实时互动；
视频会议：一秒快速建立多人视频会议，实现高效远程协作；
在线医疗：突破医疗资源的地域限制，以及系统平台限制，实现远程多方视频会诊，降低诊断成本；
在线购物：直播展示商品，同时观众连麦互动，进一步促成交易；
VIP 客服：专属视频客服，1 对 1 实时交流；
银行开户：专用网络，无需安装 App，通过小程序快速实现信息认证与视频开户；
远程报警：从微信小程序实现一键报警，迅速连接相关部门，并通过实时视频通信，使警方能实时掌控现场情况。

当实时互动场景已经随处可见，开发者需要关注什么？

不过，与实时相对的，在音视频通信上一直存在着「低延时」问题。当音视频实时通信的应用场景随处可见之时，对于开发者来讲，除了关注快速实现不同应用场景实时通信之外，更需要斟酌的是，实时音视频传输延时应该如何保证「低延时」，在低延时的同时保证音视频质量，才能满足具体的应用场景。

对于这个问题，CSDN 专门采访了在 RTC 实时通信领域深耕二十多年的资深专家 —— 声网 Agora 创始人& CEO 赵斌，他表示，「当前，通过互联网基础设施，音视频实时通信是可以进行的。但互联网本身并不是为实时设计，因此通话质量基本是靠天吃饭。」

在音视频传输过程中，不同阶段都会产生延时

而声网在实时传输、编解码、视频体验等多方面都有着独到的深度技术方案，比如自建了专门用于实时音视频数据传输的 SD-RTN™ 实时虚拟通信网络，通过智能调度算法来优化网络传输，让即使是在跨国跨州的传输中都有低延迟的保证；以及自研的抗丟包音视频编码器 Agora SOLO™，即使是在 50% 的丢包下，用户都至少可以没有障碍地听懂对方所讲的内容。

如上图所示即为 Agora SOLO™ 的处理逻辑，将包分为 packet 1 和 packet 1’，如果接收端只收到其中一个包，那么就实现一个有限失真的恢复，质量相对稍差。如果收到 packet 2 和 packet 2’，便将两个包合起来实现一个高质量的解码。默认无需等待对当前网络丢包状态的统计，只需直接将抗丟包做到编解码内部。由此首先实现了更低的延时，因为无需判断信道状态而直接发送包；其次是更高质量，收到一个包时质量能够达到普通编解码器水平，而两个包则能够达到高质量编解码水平；其三，面向多人环境，不同人下行网络、丢包均不同；其四，几乎可以不用再做策略调整。

据赵斌介绍，在某些场景下，如合唱，端到端的延时最低可以做到 50ms。「但我们认为，延时的数字大小不能代替最终体验，我们应该从实际的场景和用户体验出发来做权衡。」赵斌如是说道。

而其他如硬件适配、QoE 质量保障等技术难点均已有了相应的解决方案，在此不再做赘述，感兴趣的同学可以阅读《实时互联网的隐形风口》。

RTC 技术起始于人类对于通信的渴求，一路从原始通信、电报、无线电通信、电话到网络通信等走来，经历了长期了技术更迭，并在此过程中协议制定了规范、标准、编码和价格等规则，使网络连接、信息加速。曾经，音视频通信质量受制于网络条件和设备，如今技术仍然还在演进的路上。

对此，赵斌讲道：「RTC 技术远还没有成熟，从采集、编码、前后处理、传输、解码、缓冲到渲染等整个功能流程，我们依然在对技术做深度改善，比如结合人工智能技术，以机器学习来提升传输质量。而在此之中，使用场景的创新与拓展是同时发生的，我们面临着很多来自应用层面的需求。这方面，声网会在 9 月份的 RTC 大会上公布 RTC 与 AI 相结合的一些技术进步，也会在编解码方面分享更多的技术突破。」

实时通信下一城，人工智能、物联网下的延伸

三年前，当移动端盛行即时通讯之时，笔者与 IM 行业人士交谈，便已经被勾勒了一番物与物之间实现通讯功能的实时数据交换，以及人控制设备后，在物与物之上，人和人之间沟通的技术实现场景。比如，当一台物联网冰箱发生故障时，用户只需点击冰箱内嵌的按钮即可一键接通客服，不仅能视频聊天获得帮助，还可以发送相关参数以快速解决问题。

今天，这正在逐渐走向现实。

赵斌表示，「很多云计算公司纷纷将战略重点转移到 IoT 领域，也有很多人说 IoT 是下一个更大的计算和连接平台。如果是这样，声网作为底层实时通信和传输技术服务商，一定会有更大的想象空间，我们已经在 IoT 领域探索并落地了非常多的场景。比如亮亮视野在其第一视角 AR 眼镜实现的远程操控，就是实时通信与 AR/VR 的结合；以及小米小爱音箱，也是在智能家居领域与语音识别技术的结合探索。当然，还有更多在无人车、无人驾驶等领域的探索也是如此，举个例子，我们有一个视频无人机的合作，通过视频远程操作，可以远程操控无人机上的摄像头，比如是否要放到缩小、镜头角度调整等，这样精密准确的无人机在进行视频传输时要保证低延时，跟人的视角是同步的，由此才能确保真正的操控，也可以替代如风电机检修员等高危工种的工作。」

对于 RTC 技术感兴趣或将来可能使用 RTC 技术的开发者们，可以报名参加即将于 9 月 7 - 8 日在北京喜来登长城饭店举行的全球 RTC 行业权威技术峰会 —— RTC 2018 实时互联网大会，来自 Google、声网 Agora、Twitch、The Meet Group 、新浪微博、华为、陌陌、腾讯、VIPKID、陌陌、Bilibili、沪江等知名互联网公司的技术领袖、音视频技术大咖、产品创新专家，以及来自全球 2500 名开发者将在现场一同交流分享，实时如何定义未来。

参考资料：

《小程序互动连麦直播的实现与难点》，https://mp.weixin.qq.com/s/VCSAYGusUFGIirMl0koxGg
《详解音视频直播中的低延时》https://mp.weixin.qq.com/s/XywwxeyE9sUeJfDTNHg69g
《音视频抗丢包技术综述，面向不可靠传输网络的抗丢包编解码器》，https://zhuanlan.zhihu.com/p/30461650

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

中央批准朱军同志职务调整

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！