喜讯 | 数据科学学院获10项国家自然科学基金资助
8月18日,国家自然科学基金公布2021年度接收结果,数据科学学院共获得国家自然科学基金资助项目9项,其中面上项目2项;青年基金项目7项。此外,在今年4月底,学院也获得一项国家自然科学基金原创探索计划项目资助。截至目前,学院教师项目资助率达到43.5%,超出国家平均资助率,达到国家平均水平2.5倍多(全国平均资助率为16.6%,点击文末【阅读原文】查看详情)。
香港中文大学(深圳)数据科学学院在学院成立一年时间即获得科研项目的丰收,未来学院也将持续奋力作为,推动科研工作、积极创新,为科技进步贡献更多力量。
01
原创探索计划项目
原创探索计划项目由国家自然科学基金委员会于2020年设立,主要针对非共识的、具有较好原创思想、高风险、非循规蹈矩、变革性的项目给予支持,旨在为今后二三十年埋下取得原创重大成果的种子。管理科学部此次从众多申报项目中优中选优,通过对项目的研究思想的原创性、科学性、潜在影响力、及已有研究基础等维度进行审核,最终评选出四个项目给予资助,为后续该类项目的申请起到标杆和示范性作用。
项目
数据缺乏和模型变化下的在线机器学习和优化算法
成员:王子卓(PI)、王趵翔、李肖
摘要:项目通过运筹优化、数据科学、人工智能等基础量化科学研究方法的深度交叉融合,探索复杂和不确定环境下的新模型、新算法和新型仿真技术。机器学习在实际中的使用会遇到瓶颈而导致使用场景受限。既往文献与研究很少针对此问题进行深入研究,而王子卓教授团队项目将开拓机器学习在传统的在线机器学习和优化问题中局限性问题,探索更加一般化场景下的在数据缺乏及模型变化时的在线机器学习和优化方法。项目涉及到的科学问题包括深入使用概率不等式分析、优化方法、鲁棒优化、随机优化等方法和模型,并很有可能在研究中开拓新的分析范式,对机器学习的研究产生新的方法。同时结合管理科学的应用场景,项目的研究将促进机器学习在实际中更加广泛的应用。
02
面上项目
面上项目支持科学技术人员在国家自然科学基金资助范围内自主选题,开展创新性的科学研究,促进各学科均衡、协调和可持续发展。
项目一
大规模非接触式多模态掌纹识别研究
成员:张大鹏(PI)、李穆、蔡青、林昕雨、陈子洋、叶子晴、张南南、李兆群
摘要:基于目前相关领域的研究现状,尽管研究人员已经在接触式掌纹识别领域做了大量基础性研究和探索性实验,但是在非接触式环境中采集到的手掌产生的较大的旋转、倾斜、尺度缩放和位置偏移使得样本质量的控制更加困难,如何保证非接触式掌纹系统的高精度、实时性和鲁棒性,已经成为了非接触式掌纹识别应用落地的关键和瓶颈。因此本项目将针对上述问题开展研究,从标准化的角度设计非接触式掌纹图像采集系统和非接触式掌纹图像质量评估算法,建立掌纹多模态匹配体系、感兴趣区域定位、多模态特征表达,结合云计算技术研究海量掌纹快速检索技术,为大规模高性能非接触式掌纹识别从研究走向应用提供技术支撑。
项目二
数据驱动的排队系统在线优化算法研究
成员:陈昕韫(PI)、Andre Milzarek、刘雨楠(团队海外成员、美国北卡州立大学副教授)、王秀文、洪桂毓、孙凌儿
摘要:随着数字技术发展,各行各业积累了大量服务系统的微观数据,如何利用好这些“服务大数据”,提高服务系统管理水平,是近年来业界和学术界关心的重要科学问题。许多服务系统管理问题可以归结为排队系统的决策问题,但传统的排队系统决策方法不能适用于数据驱动环境。本项目旨在发展一套数据驱动的排队系统在线优化算法,帮助管理者利用服务数据来优化系统管理决策。在理论研究方面,对在线优化算法理论方面开展原创性研究,发展适用于广泛排队系统的在线优化算法理论框架;在算法技术方面,跨学科地结合排队论和机器学习技术,发展面向复杂排队系统的高效优化算法;在算法应用方面,与深圳本地医院积极开展合作,通过实际管理问题和真实数据来检验算法理论和应用效果。
03
青年基金项目
青年基金项目支持青年科学技术人员在国家自然科学基金资助范围内自主选题,开展基础研究工作,特别注重培养青年科学技术人员独立主持科研项目、进行创新研究的能力。
项目一
面向大规模复杂异质图的稠密子图搜索研究
成员:方一向(PI)
摘要:大规模复杂异质图数据广泛分布于社交网络、电商网络、文献网络、知识图谱等领域。稠密子图搜索作为图计算领域中的一个经典研究课题已成为很多基础应用包括社交网络分析、异常行为检测、蛋白质网络分析等所依赖的核心底层技术之一,引起了学术界和工业界的广泛关注。然而,大部分已有相关研究主要针对同质图,即节点类型和边类型都单一的图数据,因而它们难以适用于同时包含多个节点类型和多个边类型的异质图数据。本项目拟面向大规模复杂异质图数据开展高效的稠密子图搜索研究,主要包括三个方面的研究工作:1)探索面向大规模复杂异质图的新型稠密子图模型;2)提出面向大规模复杂异质图中稠密子图搜索的高效算法及理论;3)研究面向异质图中稠密子图所支撑的基础应用如社区搜索和异常行为检测等。本项目将在真实的大规模复杂异质图上通过实验和原型系统验证所提出的模型、算法、理论、以及基础应用的解决方案等的有效性。
项目二
基于自动化日志分析的大规模软件可靠性工程研究
成员:贺品嘉(PI)
摘要:近几十年来,大规模软件已经成为人类生活中不可或缺的一部分。用户对大规模软件有非常严格的可靠性需求,大规模软件中的任何故障,都可能导致重大的经济损失。软件日志作为软件运行时唯一可用的记录运行时状态的信息,被广泛使用于各种保证软件可靠性的任务中。然而,现代软件的规模越来越大,学界与业界缺乏对大规模软件运行时异常与故障的实证研究,致使该关键方向上的研究停滞不前:现有的日志解析技术与问题识别技术已无法满足大规模软件的需求。为了推动该关键方向的发展,本项目拟针对大规模软件的异常、故障以及相关运行时日志进行实证研究,并通过错误注入与故障注入等技术,收集一个系统、全面、可支持端到端自动化日志分析研究的数据集。针对其日志解析需求,我们将提出一个基于解析树与异步更新机制的在线分布式日志解析技术。针对大规模软件的问题识别需求,我们将提出一个基于层叠聚类与用户反馈的问题识别与优先级排序技术。
项目三
基于泛函机制的强化学习隐私保护算法研究
成员:王趵翔(PI)
摘要:近年来,强化学习迎来了蓬勃发展,在各领域应用广泛,但伴随而来的信息安全问题亟待解决。由于其算法中涉及大量数据交互,即使原始数据被加密,攻击者依然可以从输出逆向推测出算法所使用的数据,导致隐私泄露。当前的强化学习隐私保护研究集中在多臂老虎机和离散强化学习等特例,在连续空间上则依赖差分隐私梯度下降、教师聚合机制等泛用方法,导致效用不理想。泛函机制运用希尔伯特空间上的函数噪音来保护连续空间上的隐私,可以克服现有方案在泛用性和效用方面的不足,但由于推导复杂,其优势尚未被充分认识。本项目拟在前期基础上,研究泛函机制在强化学习上的应用。拟分析强化学习系统隐私保护位点及多种机制的最优结合、泛函机制在强化学习上的最优核函数及其隐私-效用平衡、泛函机制在高维连续空间的扩展等关键科学问题。以此大幅提升强化学习问题上的隐私保证,赋予深度强化学习算法在隐私限制下的实用性,引领强化学习中隐私保护问题的前沿研究。
项目四
快速非凸非光滑张量恢复的模型、算法、理论和应用
成员:樊继聪(PI)
摘要:大数据时代,数据常常以矩阵或者高阶张量的形式呈现,且包含各种噪声和缺失值,这给大数据分析带来了很多困难。我们可以利用数据张量的一些重要特点如低秩特性,来实现张量恢复任务,包含张量去噪声和缺失值补全。低秩张量分解和恢复成为了机器学习、信号处理、统计学、神经科学等许多领域的研究热点并得到了广泛应用。本文对现有的矩阵和张量恢复方法进行了系统性分析,指出以下问题: (1) 现有的张量恢复方法对张量秩函数的近似不够精确且非凸非光滑张量恢复模型缺乏理论保障;(2) 现有的非凸非光滑张量优化效率不高;(3) 现有的张量恢复方法不能有效处理非线性数据。本项目针对这三个问题,分别提供以下解决方案:(1) 一种自适应、准确和低计算复杂度的低秩张量恢复方法及其理论支撑; (2)一种基于二阶信息的非凸非光滑张量优化算法; (3) 一种非线性张量恢复方法及其理论支撑。本项目包含模型、算法、理论和应用四个方面。
项目五
基于边界注意力水平集的医学图像分割关键技术研究
成员:蔡青(PI)(张大鹏教授的博士后)
摘要:近年来,随着医学图像数据的日益增加,医学图像处理工作日益繁重,误诊、漏诊率较高。医学图像分割是实现医学影像自动处理和分析技术的关键步骤。然而,因医学图像具有多噪声、灰度严重不均匀、组织结构边界对比度低且模糊等特点,现有分割方法的分割准确度与手动分割仍有很大差距。鉴于此,本项目拟瞄准医学图像分割领域的关键科学问题,采用变分水平集、自适应偏移场、边界注意力等多种技术方法,开展高鲁棒性、高准确性的医学图像自动分割关键技术的研究。首先,基于变分水平集,构建全变分噪声抑制模型,实现医学图像不同噪声的抑制;然后,构建自适应偏移场估计模型,估计并纠正医学图像强灰度不均匀性,消除其对分割结果的影响;最后,基于以上两步工作,融入边界注意力、形状先验,提出边界注意力水平集医学图像自动分割算法。项目的研究成果将有助于临床医生根据医学影像,快速、准确完成临床疾病的预防、诊断与治疗,提高我国智慧医疗的水平。
项目六
基于深度学习及数据驱动的全景图像编码
成员:李穆(PI)(张大鹏教授的博士后)
摘要:虚拟现实作为一种新兴技术旨在通过智能计算设备构建三维虚拟空间,为用户提供身临其境的感受。它可以与5G技术结合,应用于人们的生活和学习中,提高人民群众的生活质量。当前,虚拟现实产业仍处于起步阶段,与之对应的各种技术也还不够成熟。在这些技术中,全景图像的编码技术是其中最重要的一环。图像编码是虚拟现实内容存储和传播,以及后续的播放和分析的基础和前提。目前国内外对全景图像编码的研究相对较少且,基于深度学习的全景图像编码研究更是空白。本项目利用深度学习技术从海量图像中学习针对全景图像的专用编码方案,解决全景图像编码中存在的纬度相关的采样不均衡、物体形变失真等问题。本项目可以有效提高现有全景图像的编码效率,节省存储和传输海量全景图像的成本,同时可以为国内外下一代全景图像编码标准的制定做准备,打破长久以来西方霸权国家在图像和视频标准制定领域的霸权地位,为我国节省大量的专利费用,具有重要的经济价值。
项目七
基于跨模态图文特征联合表达的视觉内容层次化理解关键技术研究
成员:张瑞茂(PI)
摘要:视觉内容层次化理解意在对图像场景中的物体、物体的属性、物体之间的交互关系等不同层次的信息进行全面分析。但是该任务的实现需要精细化的标注,由于成本较高,并不适用于深度学习的方法。另一方面,互联网上不同模态的数据,特别是成对的图文数据呈现井喷式增长。由于图像的文本描述中蕴含着丰富的语义内容,可以为上述任务提供充分的监督信息。鉴于此,本项目拟利用海量的互联网图文数据进行视觉内容层次化理解任务的学习,具体包括:(1)提出一套基于对比学习的图文联合表达框架,并通过问答的方式从图文预训练模型中抽取图像的各类语义信息;(2)提出一种新的层次化深度模型,实现从属性到物体再到交互关系的视觉内容预测;(3)构建视觉知识图谱,将更为丰富的先验信息嵌入到深度特征表达学习中,提升视觉内容层次化解析的预测精度。本项目所涉及的模型和学习方法将推动视觉内容解析技术的发展。研究成果对于更为广泛的视觉任务学习也具有启发意义。