查看原文
其他

RTE 2022 大会线上开幕,实时音视频已成为基础设施

CSDN 2022-11-07

转眼间,实时音视频技术已经无处不在了。最近的双十一电商直播,远程在线会议,在线课堂,语聊房、在线 K 歌,这些人们工作、生活、学习、娱乐各类场景应用背后,都离不开实时音视频技术的支撑。

对于关心实时音视频技术的开发者来说,最近有一场重要的行业技术大会是必须要关注的,那就是由声网主办的 RTE 2022 第八届实时互联网大会。作为实时音视频技术第一股的声网,已经将这场音视频行业峰会连续举办了八年,来自行业里不同公司的技术嘉宾,对音视频技术、产品、场景到生态的干货分享,都让开发者收获颇多。今年大会改为在线上举办,为期 4 天,内容覆盖更广,有实时互联网技术、行业、创业、生态、企业责任等话题。

每年大会最重要的两场,也是值得所有开发者看的,就是大会主论坛上声网创始人兼 CEO 赵斌对实时音视频应用场景、发展趋势的前瞻性分析,还有声网 CTO&首席科学家钟声对于实时音视频技术前沿的实践分享。


实时音视频,从技术、功能到基础设施


今年是声网举办 RTE 大会的第八年了,声网创始人兼 CEO 赵斌看到,行业的认识是逐步形成的。实时音视频从最早的 RTC,从 Communication 的视角,更多是在强调对语义信息进行高质量和高效率的传递。而 RTE 更聚焦用户所需要的共享时空,即俗话所说的场景。并且,能够达到或者超越线下场景的互动体验和效果,这是 RTE 真正聚焦的部分,其内涵和外延的范围远远超过了 RTC 的领域。

他提到,随着技术的发展,行业也在不断发展,现在实时音视频已经吸引了全行业参与进来,并有了专业系统的产业研究报告。另外,今年大会也在去年大会推出的“RTE 万象图谱”的基础之上,推出了行业首本聚焦应用场景解析的专业书籍《实时万象》。

赵斌也介绍了声网正在做的重点工作,例如声网 4.0 SDK,具有模块化开发、丰富第三方插件、场景工具库三个重要特点,目的是为了继续为音视频开发者,加速开发,提升开发效率,优化开发体验。另外,实时音视频另一个重要的技术底座是网络传输,声网 2015 年推出的软件定义虚拟实时网络 SD-RTNTM,现在的 QoS 服务保障已经保障到了“5 个 9”(99.999%)。

对于性能的严苛追求之后,是声网看到了对音视频技术有更高要求的前沿场景在不断产生和发展。赵斌介绍了超强互动的微延迟场景,例如平行互动和控制(例如在线教育、工业、医疗等远程操作)、娱乐里的实时合唱、云游戏,这些都是对 RTE 技术的极致挑战,微延迟也或将成为 RTE 场景创新的前提,当然这也提高了 RTE 技术厂商服务门槛,非常考验厂商的技术实力。另外,赵斌认为实时信令能力将成为 RTE 服务的新基建,现在声网 RTM2.0 追求并实现了更高指标,例如微延迟小于 100ms,高并发无上限,高可靠大于 99.99%。

在音视频 AI 算法上,这次演讲赵斌聚焦在了声网对音频技术的探索,如 AI 降噪、AI 回声消除和空间音频,其中最亮点是空间音频,只用声音,就构建出了更接近于真实场景的空间感。以前我们对声音的追求称为 3D 环绕立体声,不过这次大会上分享的空间音频 Demo 比立体声增加了更多丰富的细节和想象空间。除了 AI,赵斌也再次展望了接下来 RTE 的场景机会,如混合办公、下一届世界杯,元宇宙应用仍将加速发展,还有超预期的无人驾驶技术,另外,他表示,移动化、云化、低代码封装将成企业数字化应用主流,RTE 主流分别率可能会上升到 720p,沉浸式体验将成为 RTE 重要指标。上述的每一个趋势,都是开发者正在耕耘和可能快速超越的机会。


实时音视频技术:计算通信智能一体化,走向实时感知


在去年的大会上,声网 CTO& 首席科学家钟声对很多音视频前沿技术的分享就让我们印象深刻。今年 RTE 2022 大会上,钟声在大会分享里提到的一个关键词是“实时感知”。这也是今年 IT 业界提到的一个重要的词,在人工智能、IoT 不断发展的当下,感知理解世界和人们的诉求,去实现任务,可能是 IT 技术应该去探索的方向。

回到实时音视频技术领域,钟声表示,计算、通信、智能的发展在趋于一体化,实时互动仅限于传递信息已经不够,智能是实时互动必不可少的因素。他从实时音视频传输链路的发送端、传输链路、接收端三个角度,分享了如何去提升 RTC 的优良体验。

在接收端,对于 RTC 最终用户的感知体验,他分享了声网对时空、时域、设备、(屏幕)尺寸等评估数据的分析,提升用户体验才是实时互动的最根本追求。他详细介绍了声网用深度学习,让模型参数量、计算量实现数量级降低,在用户侧的移动端上,低功耗实现更好的用户感知体验。

传输链路上,钟声分享了声网在网络各类不确定情况下,如何分析和降低数据丢包率的模型和算法,去做传输策略调整,例如寻找最佳传输路径,以及调整音视频的分辨率/帧率/码率等。在发送端,采集人脸人体的动作、表情、手势等数据,并且实现移动端极小的深度学习神经网络模型,例如人脸形状向量、纹理向量,人体姿态模型、运动动作等等专业算法模型,去三维重建实现个性化的人脸、人体模型。

这场实时音视频行业的技术盛会还在继续,大会还有更多硬核的干货技术分享等待开发者去亲自了解。2018 年,实时音视频就已经被列为了新一代基础设施,而每一代基础设施提升,都可能创造新一代杀手级应用。声网对 RTE 体验的探索,值得开发者重点关注。CSDN 将连续四天对大会全程直播,欢迎随时关注收看。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存