科研速递 | 黄建伟教授团队在2022年国际移动计算与网络会议MobiCom上发表文章
摘要
近日,黄建伟教授与香港中文大学邢国良教授共同合作指导的研究“Cosmo: Contrastive Fusion Learning with Small Data for Multimodal Human Activity Recognition”被第28届国际移动计算与网络会议(The 28th Annual International Conference on Mobile Computing and Networking, MobiCom 2022)接收。
Part. 01
会议介绍
国际移动计算与网络会议(MobiCom)是无线网络和移动计算系统领域的世界顶级学术会议,是CCF A类会议。MobiCom22将于2022年10月17日至21日举办,会议由ACM SIGMOBILE赞助。会议每年接受两轮投稿。本轮中共有223篇投稿,其中仅41篇文章被接收,录取率仅为18.3%。
Part. 02
研究背景
人类活动识别(HAR)在智能家居、智能健康、虚拟/增强现实(VR/AR)等领域有着广泛的应用。在实际应用中,人类活动通常是高度复杂且动态的,其中大部分难以通过仅使用单一传感器模态来捕获。因此,越来越多的多模态传感器系统被用于活动识别应用中,以利用多种新兴且保护隐私的传感器模态(例如深度相机和雷达),提供更准确的活动识别。
然而,在人类活动识别中融合多种传感器模态数据存在诸多挑战。首先,在活动识别应用中,不同类型的传感器数据通常是高度异构的。例如,惯性测量(IMU)和深度图像具有显著不同的维度和形态,使得融合具有挑战性。其次,实际应用中通常存在非常有限的标记好的多模态数据,利用少量标记的多模态数据进行有效融合十分困难。最后,活动识别应用中的传感器数据通常具有隐私敏感性,无法传输到云端;且活动识别模型通常需要针对不同用户进行定制,这需要使用连续的多模态数据进行设备上的训练(on-device training)。
Cosmo在多模态活动识别中的应用场景
Part. 03
研究方法
通过基于真实世界的多模态HAR 数据集的分析,我们发现:
1)不同传感器模态的一致性信息(consistent information)有助于对齐数据特征,从而使融合结果更加对噪音更加鲁棒。
2)模态间的互补性信息(complementary information)能够利用不同传感器的优势,因而提高融合的准确率。
3)当仅存在有限的标记好的多模态数据时,应在融合过程中同时学习和利用一致性和互补性信息,以在真实的 HAR 任务中实现更稳健的融合性能。
在此背景下,我们设计了Cosmo,一个基于端云协同和少量标记数据的对比融合学习系统,用以提高多模态人类活动识别的准确性。一方面,Cosmo利用了云端大量未标记的多模态活动数据进行对比融合学习(contrastive fusion learning),来学习多模态数据的一致性和相关性 。具体来说,此部分设计了一个基于数据融合的特征增广模块(fusion-based feature augmentation),并通过设计基于对比学习的模型训练目标,使得来自于同一组多模态数据的正样本在特征空间的距离相近,而来自其他多模态数据的负样本距离更远。所提出的对比融合学习提取的特征(unimodal representations)不仅能包含更多模态间的一致性信息,且对不同的融合方式具有更强的适应性(invariant to different fusion schemes)。另一方面,Cosmo对边缘端用户少量标记的多模态活动数据进行监督学习,来学习多模态数据间的互补性。具体来说,此部分提出了基于数据质量和注意力机制的分类器,仅利用非常少量标记的数据实现有效的互补性融合。同时,此部分将复用预训练的多模态特征提取模型,并利用交替训练(iteration fusion learning)的方式与分类器进行结合,更好地结合模态间的一致性和互补性信息。
Cosmo系统设计框架
Part. 04
研究结果
我们的实验使用了两个公开数据集和一个新采集的多模态活动数据集,这些数据集总共包含来自五种不同传感器模态(即加速器、 陀螺仪、骨架、深度图像和毫米波雷达)和 55 种不同的日常人类活动。结果表明,Cosmo 分别比单模态学习、监督融合学习和现有的对比学习方法分别提高了 51.61%、26.73% 和 20.90%的活动识别准确率。同时,我们搭建了一个基于Nvidia Jetson TX的实际的端云系统,实验表明Cosmo相比于传统的监督融合学习方法收敛速度大大提升,在用户端具有较高的训练效率。
采集的多模态活动识别数据集
Part. 05
结论
本文提出了一种有效的基于端云协同和少量标记数据的对比融合学习系统,用以提高异构多模态活动识别的准确性。通过在融合过程中同时学习和利用不同模态的一致性和互补性信息,该方法能够利用用户端非常少量标记的数据实现高效的多模态数据融合。在真实的多模态活动数据集和自主搭建的端云系统的实验结果表明,我们的方法能在真实的活动识别任务中实现更稳健的融合性能和更高的训练效率。
Part. 06
作者简介
第一作者:欧阳小敏
欧阳小敏,香港中文大学信息工程系在读博士生,2019年本科毕业于厦门大学。目前研究方向为基于机器学习的智慧健康系统,移动感知与计算,物联网,相关论文发表于MobiCom, MobiSys, SenSys, TOSN等移动计算领域会议与期刊。
共同通讯作者:邢国良教授
邢国良,现任香港中文大学信息工程系教授,IEEE Fellow,2006年获美国圣路易斯华盛顿大学博士学位,并曾在美国密歇根州立大学任助理教授、终身副教授。邢教授在嵌入式人工智能、物联网、信息安全和无线网络领域发表了150 多篇论文,总的引用数超过10,000 次,现领导多个大型边缘人工智能项目,将应用于城市智能网络设施,自动驾驶,智能健康等多个领域。过去10年期间其领导开发并部署过地震火山传感器网络、智能健康、数据中心效能管理、水下机器人网络等大型系统,并于2010 年获得青年科学家事业奖(CAREER), 2014年获美国密歇根州立大学Withrow杰出教授奖。邢教授的工作在多个国际一流会议上获得3篇最佳论文奖和5篇最佳论文候选。邢教授的研究成果在2013-2015年连续三年获顶级会议MobiCom移动应用奖,开发的数项智能系统技术已被工业界产业化。
共同通讯作者:黄建伟教授
黄建伟教授现任香港中文大学(深圳)协理副校长(候任),校长讲座教授,兼任深圳市人工智能与机器人研究院副院长和群体智能研究中心主任。他是深圳市鹏城特聘教授,IEEE Fellow,IEEE通信学会杰出讲者,汤森路透计算机科学领域全球高被引科学家。
黄教授长期专注于网络通信、网络经济学和群体智能交叉领域的开创性研究,其特色是通过融入经济学理论给出网络中资源分配和优化的解决方案。他已发表7部学术专著和300余篇国际一流期刊和会议论文,被谷歌学术引用超过14890 次,H-index为 61,9篇论文入选ESI高引论文,1篇文章入选ESI热点论文。他的论文10次获得国际会议和期刊的最佳论文奖,连续于2016、2017年入围科睿唯安(原汤森路透)全球高被引科学家榜(即发表的ESI高引论文数在计算机领域排名全球前1%),2021年入选斯坦福大学评选的“世界前2%顶尖科学家”,2022年入选爱思唯尔“中国高被引学者”。
黄建伟教授长期活跃于IEEE通信学会,现任IEEE Transactions on Network Science and Engineering(JCR Q1)的主编(Editor-in-Chief)。曾先后担任IEEE Open Journal of the Communications Society的副主编(Associate Editor-in-Chief),IEEE Communications Society Technology News 副主编(Associate Editor-in-Chief)。
参考文献:
[1] Xiaomin Ouyang, Xian Shuai, Jiayu Zhou, Ivy Wang Shi, Zhiyuan Xie, Guoliang Xing*, Jianwei Huang*, “Cosmo: Contrastive Fusion Learning with Small Data for Multimodal Human Activity Recognition”, The 28th Annual International Conference on Mobile Computing and Networking (MobiCom), 2022.
【完】
点击以下链接,进入理工时刻:
喜讯 | 数学与应用数学专业魏文青同学获2022丘成桐大学生数学竞赛个人单项铜奖
活动回顾 | 香港中文大学(深圳)2022翔龙鸣凤科学论坛圆满落幕
科研速递 | 理工学院林天麟教授团队在IEEE Transactions on Robotics上发表文章
相遇在未来・访谈录|理工校友在加利福尼亚大学圣地亚哥分校(上)
活动回顾 | 第五届聚集诱导发光国际研讨会(AIE5)暨翔龙鸣凤科学论坛圆满落幕
SSE Newsletter | 理工学院2022年第二季度简报
科研速递 | 理工学院韩晓光教授团队三篇论文被ECCV2022收录(含一篇口头报告)