查看原文
其他

干货!基于谱字典的三维网格表征学习

爱国 AI TIME 论道 2023-10-20

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


三维网格用于建模有着统一拓扑结构的三维人脸 、人体或者人手等,广泛地应用于三维计算机视觉和图形学,比如三维人脸重建,三维人脸生成和驱动,人脸识别等。网格是不规则的,因为每个顶点的邻域都是无序的,并且它们的方向与其他顶点不一致。以前的方法使用各向同性卷积核或预定义的局部坐标系或学习模板每个顶点的权重矩阵来克服不规则性。学习每个顶点的加权矩阵,将顶点的邻域软置换成隐式的规范序,是捕捉每个顶点局部结构的有效方法。然而,学习每个顶点的权重矩阵会随着顶点数量的增加而线性增加参数大小,高分辨率3D形状需要大量参数。在本文中,我们学习加权矩阵的谱字典(即基),使得参数大小与三维形状的分辨率无关。每个顶点的加权矩阵基的系数以权重共享的方式从模板顶点及其邻域的光谱特征中学习。综合实验表明,我们的模型以更小的模型尺寸产生最先进的结果。


本期AI TIME PhD直播间,我们邀请到上海交通大学博士后——高忠派,为我们带来报告分享《基于谱字典的三维网格表征学习》。



高忠派:


现为上海交通大学人工智能研究院博士后,2018年博士毕业于上海交通大学电子工程系。研究方向包含计算机三维视觉、三维显示等。博士期间访问哈佛医学院,从事基于三维显示晕动症的问题。在ACM MM, AAAI, IJCAI, TMM, TCyb, Display, DSP等会议和期刊上发表论文数十篇。获得DynaVis@CVPR 2020动态场景重建研讨会的最佳论文奖。博士后期间入选国家博士后创新人才支持计划,上海市超级博士后激励计划,获得国家自然科学青年基金项目资助。


个人主页:

https://sites.google.com/site/gaozhongpai/home


01

 背   景 


深度学习,尤其是卷积神经网络(CNN),在结构化数据上取得了巨大的成功,其原因主要有两个:一是CNN有各向异性的卷积核(anisotropic filters),二是CNN可以从结构化数据中进行多层信息采样,能够极大减少网络参数。



实际应用中也有很多非结构化的数据,比如图结构可以表征很多数据,像社交网络,分子结构等等。在本文中,我们主要关注在共享固定拓扑结构模板的三维网格数据上,研究如何对这种数据进行表征学习。

 


现有工作中在2021年AAAI上的一项工作LSA-Conv提出了下面的三维网格表征学习方法,假定重排后网络学习到的顺序一致,类似传统CNN,引入anisotropic filters进行操作。每个顶点都引入一个权值矩阵P,P是通过网络学习得到。下图我们对网络中的9个顶点进行重排后,需要81个权值矩阵,如果对应模板有1000个顶点,那参数总数就是81,000个参数矩阵。因此这种方法随着模板个数增加,网络节点数增加,权值矩阵的参数量也会线性增加。

 


02

 方   法 


为了解决现有方法采用权值矩阵的方式带来参数量巨大的问题,我们提出了基于谱字典的三维网格表征学习方法(Learning Spectral Dictionary for Local Representation of Mesh,SDConv),希望通过谱字典学习减少大量的参数量。


本文方法的权值矩阵没有采用直接网络学习的方式,我们首先定义一组基,将这组基乘以一个系数,然后进行线性组合得到权值矩阵。其中,的系数是通过对网格模板的顶点位置进行谱映射计算得到。通过这种方法可以大大减少三维网格表征学习的参数量,且该方法的参数量不随着网络顶点数量增加而线性增加。

 


03

 实   验 


(1)实验设计


我们通过下面的基于自编码器的三维重建模型来验证上述方法的有效性。输入是三维网格数据,通过不同的卷积进行编码,得到32位的向量(绿色长条),然后通过解码上采样生成一个三维网格,通过计算输入网格和输出网格之间的误差,衡量本文方法对三维网格额表征能力。

 


(2)实验结果


下面是本文方法SDConv分别在DFAUST数据集和COMA数据集上的实验结果,其中latent 8表示编码器将三维网格数据压缩到8维向量。SDConv在上面两个数据集上的误差率最低,表征能力最强。

 


下面展示了在不同参数量下,各种算法的推理时间,显然本文方法的表现最优。

 


论文链接:

https://www.ijcai.org/proceedings/2021/95


点击“阅读原文”,即可观看本场回放

整理:爱  国

审核:高忠派


直播预告


2月26日  PhD debate - 9 

浅谈自然语言处理中的泛化性


模型泛化性指的是什么?

泛化性有着什么样的意义?

从自然语言处理的视角来看,模型泛化性分别有着怎样的独到之处?

目前的工作是如何处理这种特殊性的?以及未来的趋势如何?


往期精彩文章推荐

记得关注我们呀!每天都有新知识!

 关于AI TIME 


2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

~

点击 阅读原文 查看回放!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存