科研速递 | 理工学院王方鑫教授团队在计算机多媒体方向顶级会议IEEE VR上发表文章
近日,香港中文大学(深圳)理工学院王方鑫教授团队在CCF A类会议/CS ranking visualization方向顶级会议 IEEE VR上发表文章。
会议介绍
IEEE VR是虚拟现实(VR)、增强现实(AR)、混合现实(MR)领域的国际顶级学术会议,引领VR、AR、MR领域未来的研究方向,被中国计算机学会(CCF)推荐为A类国际学术会议。
研究背景
点云视频(PCV)是一种由点云帧序列组成的视频,每个帧是3D空间中分布的一组无序点,能提供六自由度(6-DoF)的逼真3D观看体验。然而,PCV面临的主要挑战是其高维度和稀疏性质使得处理起来相比2D视频更加困难。巨大的数据量显著增加了存储和传输的负担,阻碍了其未来的发展和应用。例如,常见的每秒30帧的视频,当每帧点数接近760,000时,带宽需求高达2.9Gbps,远超过普通设备的带宽能力,频繁的停顿是现有点云流媒体系统的主要挑战之一。因此,优化PCV传输的带宽需求变得迫切。
研究方法
图1 Fumos系统架构图
图1展示了Fumos的系统架构,一个PCV最初被顺序划分为多个视频块,每个块包含多个帧。每个块内的点云共享相同的处理超参数。每个帧通过八叉树进行降采样,最大深度为LoD。随后,一个动态分配机制将部分的PCV分配给视野自适应编解码器(FoV-adaptive codec),其余部分使用N-PCC编码。N-PCC压缩能力强,用于将全景PCV压缩为紧凑的比特流进行传输,而FoV-adaptive codec编解码速度快,用于快速优化视野内的画质。首先,对于由N-PCC编码的每个视频块,可以通过提前几秒解码(长预测窗口),在播放前完成解码形成粗糙的基础层。随后,FoV-adaptive codec解码视野内短期预测区域的比特流,通过与粗糙基础层合并来优化该区域,从而提高视野内的视觉质量。这个逐步细化的过程如图2所示。最后,一个基于Lyapunov优化的适配器,持续监测当前宽带、计算资源等环境信息,实时动态地调整LoD和γ以确保PCV可以完整且流畅地传输,从而最大化整体QoE。
图2 渐进式画质提升过程
Fumos中由两个关键部分构成:基于帧间编码的深度压缩N-PCC以及渐进式精细化流传输模块。N-PCC中作者设计了多尺度特征提取编码器(图3)来捕获当前帧与前一解码的帧的密度和拓扑信息,通过一系列降采样块,得出当前帧与前一帧的高维特征。随后,运动估计模块分析从该两处连续帧的高维特征中得到的运动矢量,运动补偿模块紧接着推导出当前帧的预测特征。运动矢量和残差被压缩,用于随后重构当前帧。图4表明N-PCC的压缩性能优于当前SOTA方法,在与最先进的点云压缩方法G-PCC和V-PCC相比,实现了显著的比特率减少收益,平均分别为91.7%和51.7%。
图3 多尺度特征提取编码器
在渐进式精细化流传输模块中,FoV-adaptive codec从历史视野轨迹捕获特征,预测一个粗略的视野区域。然后,通过稀疏卷积编码器提取并融合前N个视野区域的内容特征,进一步从预测区域附近扩展区域提取特征。最后,一个内容感知轨迹估计器优化粗略预测的视野区域,得到准确的视野区域。随后预测视野区域以外的点云将被过滤,剩余的部分使用基于八叉树的编码器进行压缩,从而达到极高的压缩率却不丢失关键信息。由于数据量大大减少,FoV-adaptive codec解压速度是N-PCC的数倍。随后渐进式精细化流传输模块中应用Lyapunov优化算法,根据当前网络带宽、设备算力资源等信息来实时优化点云的精度层级LoD和两种编码器(N-PCC与FoV-adaptive codec)的工作量分配比γ来确保显示的完整性和流畅性,从而最大化整体QoE。图5和图6表明合理结合N-PCC与FoV-adaptive codec可以有效提高系统传输性能,从而提高整体QoE。表7结果表明,Fumos显著优于当前最快的编解码器Draco,平均解码速率提高了260倍以上。
图4 使用R-D曲线比较各编解码器压缩性能
图5 单独使用各编解码器的整体QoE比较
图6 固定参数不使用Lyapunov优化的标准化QoE(Fumos的QoE为1)
表7 方法在不同数据集上的性能指标。Fumos代表在低带宽情况下,而Fumos∗表示带宽是原来10倍的情况
研究结论
作者设计了一个立体视频传输系统Fumos,通过避免播放停顿同时保持高感知质量和高压缩率,以提升QoE。该系统结合了神经网络、视野自适应和基于八叉树的压缩的优势,为当前点云视频传输开辟了一个有前景的方向,并为应用层和传输层的共同设计提供了一条新途径,以实现更高质量的点云视频。
作者简介
通讯作者
王方鑫博士现为香港中文大学(深圳)理工学院助理教授、博士生导师。他分别于北京邮电大学,清华大学,加拿大Simon Fraser University 获得学士、硕士、博士学位,随后于加拿大University of British Columbia从事博士后研究。他的研究兴趣包括多媒体网络与系统,云边端协同计算,深度学习,大模型与边缘智能等。他在IEEE INFOCOM, ACM Multimedia, IEEE VR, IEEE/ACM Transactions on Networking, IEEE Transaction on Mobile Computing, IEEE Internet of Things Journal, IEEE Transactions on Networking Science and Engineering等国际顶级期刊会议上发表论文50余篇, 近5年来论文总引用数次数超1100余次。他担任JCR一区期刊Transactions on Mobile Computing编委,Digital Communications and Networks编委,IEEE Satellite 2023大会程序委员会主席,以及多个学术会议的技术委员会委员、分会主席,包IEEE/ACM IWQoS(CCF推荐B类会议),IEEE ICC(通信领域顶级会议),BigCom等。他入选中国科协“青年托举人才”计划,入选斯坦福大学世界前2%科学家榜单,并指导学生获得IEEE Satellite 2022最佳学生论文奖。
本文一作(梁志成与刘俊华为共同一作)
梁志成,香港中文大学(深圳)2023级博士研究生。目前主要从事三维数据编解码、三维重建、立体视频传输等深度学习与多媒体领域相关研究。
刘俊华,香港中文大学(深圳)2020级本科生。研究方向是计算机网络、多媒体和人机交互。目前在IEEE VR、ACM MM、ACM MMSys等国际会议上发表论文9篇。曾在商汤研究院,哈佛大学,卡耐基梅隆大学实习,曾担任VR, MM, UbiComp, CSCW, CHI, ICASSP等顶级会议审稿人。
-END-
点击以下链接,进入理工时刻:
喜讯 | 理工学院赵俊华教授获IEEE电力与能源学会旗舰会议颁发杰出贡献奖
科研速递 | 理工学院唐本忠院士、赵征教授与合作者在JACS上发表文章
科研速递 | 理工学院唐本忠院士、赵征教授与合作者在ACS Nano上发表文章