查看原文
其他

科研速递 | 韩晓光教授团队七篇论文被CVPR2022收录



近日,香港中文大学(深圳)理工学院韩晓光教授团队的七篇研究论文被IEEE计算机视觉与模式识别会议CVPR2022收录。CVPR是由美国电气及电子工程师学会(IEEE)组织的计算机视觉领域顶尖的国际会议之一,在2021年谷歌学术指标排行中位列总榜第4,仅次于Science。2022年举办地为美国新奥尔良州路易斯安那市。

Part 01

论文简介

Figure 1. Given a single in-the-wild clothed human image, ReEF can generate high-fidelity layered garment meshes. The appearances of the reconstructed garments are well aligned with the input image. Moreover, the produced garments can be placed on other virtual characters.

随着深度学习和隐式三维形状技术的发展,近年来在人体数字化领域有了许多突破,重建的人体三维模型中恢复了高精度的表面细节(例如衣物上的褶皱)。但是这些基于隐式三维技术的方法存在一个共同问题:未能生成拓扑一致,且未能完好地分离出各件衣服的三维模型。这个问题使得现有方法不能支持现代的商业化三维内容生成。针对这一问题,我们提出了一种新颖的几何生成框架ReEF。这个全新的框架能够从单张参考图片中,重建恢复出拓扑一致且完好分层的服装三维模型。文章经过充分的实验说明该方案显著优于现有的单张图像三维服装生成方案,在内容生成商业化上有不小的潜力。


Arxiv: 

https://arxiv.org/pdf/2203.15007.pdf

Project Page: 

https://kv2000.github.io/2022/03/28/reef/


该论文第一作者是理工学院和深圳市大数据研究院的研究助理朱鹤鸣,其他理工学院参与作者还包括在读博士生邱陵腾和邱宇达(导师均为韩晓光教授),该工作由韩教授指导完成。

Figure 1. Instance segmentation with SharpContour. Top: A is the coarse mask predicted by Mask R-CNN and B is the refinement result of SharpContour. Bottom: C is the coarse contour generated by DANCE and D is the refinement result of SharpContour. In the corner areas, SharpContour yields significant improvements.

在物体边界区域,实例分割任务尚未实现较好的效果,因此,人们开始更多地关注如何改善物体边界区域的分割结果。我们在本文中提出了SharpContour,一种高效的基于轮廓变形的改善物体边界区域分割结果的方法。SharpContour采用了一种新颖的轮廓变形方法,该方法依赖于一种本文新提出的关注物体特征信息的点分类器。这种新颖的轮廓变形方法采用离散的方式来计算每次的变形量,不同于现有的计算变形量的方式,它可以更加独立地计算每个顶点的变形量并因此可以拟合更加尖锐的轮廓进而产生更准确的分割结果。值得注意的是,SharpContour也具有足够的通用性,可以无缝地与不同的实例分割方法一起工作来改善它们的分割结果并只额外引入了很小的计算成本。实验结果证明了SharpContour确实可以显著且高效地改善多种实例分割方法的结果。


Arxiv: 

https://arxiv.org/abs/2203.13312

Project Page: 

https://xyzhang17.github.io/SharpContour/


该论文第一作者是来自于理工学院的硕士生朱宸铭,其导师是韩晓光教授,该工作由韩教授指导完成。其他理工学院参与作者还包括在读博士邱梁东。

Figure 1. A closed waste bag is being scanned by an X-ray machine (left), producing the corresponding X-ray image (mid). The contained waste items can be clearly seen from this image. The figure at the right is the instance-level mask prediction of our method for this X-ray image (best viewed in color)

对垃圾袋中的垃圾类别检测是垃圾回收处理流程的重要步骤,过去对于此类问题主要依赖手工拆开袋子后进行目视检查和基于传统RGB图像的目标检测算法,而这些方法都需要较繁琐的准备流程。除此以外,垃圾袋中被遮挡的垃圾目标等也极易被遗漏和忽视。本文从X射线可穿透密闭包装与重叠物体的强大穿透力特性中得到启发,提出一种在不拆开垃圾包装袋情况下,利用X光图像执行更为高效的垃圾类别检测方法,并且我们还采集了一个包含5,038张X光垃圾图像(共30881个垃圾目标实例标注)的数据集WIXRay Dataset。为了充分利用X光垃圾图像的特征(例如,严重的遮挡和穿透效应),我们提出了一种新的实例分割方法ETHSeg。ETHSeg采用由易到难的策略,使用高置信度预测来指导高度重叠对象的分割,并采用全局结构指导模块来更好地捕捉由穿透效应导致的复杂边缘轮廓信息。


Project Page: 

https://lingtengqiu.github.io/2022/ETHSeg/


该工作第一作者为理工学院与深圳市大数据研究院联合培养博士生邱陵腾,其导师为韩晓光教授。该工作由崔曙光教授、韩晓光教授和陈冠英教授共同指导完成,其中韩教授为通讯作者。其他理工学院参与作者还包括在读博士生熊张洋、刘垦坤、硕士生王旭浩以及本科生李易寒。

Figure 1. An example of our segmentation result when using training data with weak annotations for training models. Left: dental model with weak annotations, i.e., labelling all tooth centroids and only a few teeth. Right: our segmentation result.

牙齿分割是牙科医生扫描得到病人的牙科模型后进行的最基本的任务,研究如何保证分割效果的情况下节省医生标注的精力具有重大意义。我们设计了一套基于学习的先检测后分割的弱标注牙齿分割框架, 只需要牙科医生为牙科模型提供所有牙齿中心和一部分牙齿的详细面片标注就可以驱动, 这是一套着重于检测阶段的牙齿分割框架。其创新点可以分为两点: 首先,我们学习了牙弓, 先使用贝塞尔曲线进行初始化,再逐步细化; 其次, 我们提出一种新的采样策略APS。实验证明我们的方法在四千多个牙科模型上达到了SOTA,并且在弱标注的情况下依然可以准确分割。


该工作第一作者是理工学院在读博士生邱梁东,他的导师是崔曙光教授和韩晓光教授,其他理工学院参与作者还包括本科生叶崇杰、硕士生陈沛、博士后刘云碧博士,该工作由韩教授指导完成。

Figure 1. Example animations generated by our Granularly Controlled Audio-Visual Talking Heads (GC-AVT). Given a reference identity frame, GC-AVT generates audio-visual driven talking head video with other emotional expression source and pose source video frames independently. The mouth shapes of driven results are matched with the synced video (on top row), and the expressions of driven results are matched with the expression source (on bottom row) while the poses are matched with the pose source (left column).

对于创造虚拟人来说,生成具有表现力的会说话的头部是至关重要的。然而,现有的单视角或多视角的方法侧重于口型的音视频同步和控制头部姿态的运动,忽略了使说话的面部表情更生动的情感表达。因此,我们提出了一种新的方法来细粒度地控制嘴唇运动、头部姿势和面部表情。为了解耦视听驱动源,我们确定了三种基于先验的精细预处理程序,来处理三种不同的控制源,三个驱动源的编码特征仅通过重构训练就可以达到整体平衡。我们还集成了视听同步,这样我们的系统可以由音频或视频驱动,生成嘴型准确、姿态可驱动,且具有动态情绪表达的富有表现力的虚拟人像视频。


该工作由百度VIS视觉技术部与香港中文大学(深圳)联合完成,其中共同第一作者潘琰是理工学院在读硕士生,其导师为韩晓光教授。

Figure 1. Performance and efficiency comparison on Vimeo-90KT [33]. Besides high PSNR and fast inference, our alignment algorithm can be easily integrated into existing frameworks (e.g., IconVSR [3]) to further improve performance. Circle sizes are set proportional to the numbers of parameters.

视频修复,包括但不限于视频超分辨率,视频去模糊和视频去噪,是计算机视觉领域的重要问题。准确的时序对齐在视频修复任务中起到关键的作用,其中长距离的时序对齐充满挑战。本文重新审视了现有两种主流的时序对齐方法,并提出了一种迭代式的时序对齐策略。具体而言,对于多个长距离的对齐,我们采用迭代优化的方式消除多步对齐的累积误差。同时,为了提高融合的性能,我们提出了一种基于时序信息准确性和时序信息一致性约束策略。基于在多个数据集上充分的定量与定性实验对比,我们的方法在视频超分辨率、视频去噪和视频去模糊三个任务中均取得了SOTA的性能,同时还能保持运行速度、模型大小与显存的优势。


Arxiv: 

https://arxiv.org/abs/2111.15288


该工作由思谋科技与香港中文大学(深圳)联合完成,其中第一作者为理工学院在读博士生周昆,其导师为韩晓光教授。

Figure 1. Top: (a) Vanilla domain generalization. (b) Compound domain generalization. Bottom: The workflow of our approach.

域泛化(DG)旨在通过使用多个可见源域的知识来提高未见目标域的泛化性能。主流 DG 方法通常假设每个源样本的域标签是先验已知的,这在许多实际应用中难以满足。在本文中,我们研究了复合 DG 的一个实际问题,它将离散域假设放宽到混合源域设置。另一方面,当前的 DG 算法优先关注跨域的语义不变性(一对一),而较少关注整体语义结构(多对多)。这种整体语义结构,在这里称为元知识,对于学习可概括的表示至关重要。为此,我们通过元知识编码(COMEN) 提出复合域泛化,这是一种分两步自动发现和建模潜在域的通用方法。首先,我们引入了风格诱导的领域特定归一化(SDNorm)来重新归一化多模态底层分布,从而将源域的混合划分为潜在集群。其次,我们利用原型表示,即类的质心,在嵌入空间中使用两个并行且互补的模块执行关系建模,这些模块显式编码了分布外泛化的语义结构。对四个标准 DG 基准的实验表明,COMEN 在不需要域监督的情况下实现了最先进的性能。


Arxiv: 

https://arxiv.org/pdf/2203.13006.pdf


该工作由香港大学、深睿人工智能实验室、香港中文大学(深圳)以及厦门大学联合完成。

Part 02

教授简介

韩晓光博士,现任香港中文大学(深圳)理工学院与未来智联网络研究院助理教授,校长青年学者。他于2017年获得香港大学计算机科学专业博士学位。研究方向包括计算机视觉和计算机图形学等,在该方向著名国际期刊和会议发表论文近50篇,包括顶级会议和期刊SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等,他目前担任Frontiers of Virtual Reality 客座编辑。他获得2021年度吴文俊人工智能优秀青年奖,IEEE TVCG 2021年度最佳审稿人荣誉提名,他的工作曾获得CCF图形开源数据集奖(DeepFashion3D,该数据集自2021年开源以来已被来自四十多个国家约两百多家单位下载使用);2019年和2020年连续两年入选计算机视觉顶级会议CVPR最佳论文列表(入选率分别为0.8%和0.4%);IEEE VR 2021 最佳论文荣誉提名;计算机图形学顶级会议Siggraph Asia 2013新兴技术最佳演示奖;他的团队还曾获得2018年IEEE ICDM 全球气象挑战赛冠军(1700多支参赛队伍)。他是广东省珠江团队核心成员,以项目负责人身份主持NSFC青年和面上项目,阿里巴巴AIR计划,CCF-腾讯AI Lab犀牛鸟专项,并以单位负责人参与NSFC-重点项目,国家重点研发计划,他的研究也受到华为、腾讯、阿里巴巴、思谋科技、红棉小冰、深圳市气象局等支持。

更多细节详见:

https://mypage.cuhk.edu.cn/academics/hanxiaoguang/


点击以下链接,进入理工时刻:

Direct sampling methods for general nonlinear inverse problems

理工学生座谈会 | Interactive Session with SSE Students

SSE WEEKLY COLLOQUIUM活动回顾 | 2022理工学院系列研讨会第十五讲

讲座邀请 | 新能源科学与工程行业系列讲座——数据科学与人工智能驱动的双碳产品及解决方案

在港中大(深圳)理工学院求学,你会遇到这样的老师(上)

在港中大(深圳)理工学院求学,你会遇到这样的老师(中)

在港中大(深圳)理工学院求学,你会遇到这样的老师(下)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存