【金猿人物展】龙盈智达首席数据科学家王彦博:量子科技为AI大数据创新发展注入新动能
王彦博
本文由龙盈智达首席数据科学家王彦博撰写并投递参与“数据猿年度金猿策划活动——2022大数据产业趋势人物榜单及奖项”评选。
数据智能产业创新服务媒体
——聚焦数智 · 改变商业
回顾2022年大数据行业发展,令人感触最深的是数字经济时代对“数据安全”和“数据智能”这一“盾”一“矛”都提出了更高的要求,促使隐私计算、小样本学习等新兴数字技术加速发展。
数据安全与隐私保护上升至国家立法高度,发展隐私计算恰逢其时当前,“数字中国”战略正在深入推进,数字经济已成为驱动中国经济发展的重要引擎。国家“十四五”规划明确,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革,打造我国数字经济新优势。随着数据生产要素的重要性与价值的激增,在全球范围以数据为攻击和窃取对象的各种数据安全事件和个人信息侵犯事件多有发生,直接危害到国家安全、社会稳定、经济发展以及个人权益。
数据安全是数字经济发展的基石,数据安全保障能力是国家竞争力的直接体现,也是促进数字经济健康发展、提升治理能力的重要前提。我国的《数据安全法》《个人信息保护法》分别于2021年9月1日和11月1日正式施行,而2022年则是两部法律施行的首个年度,也是各级立法、执法部门,各行业监管、标准制定部门发布或修订配套法律法规、开展专项检查行动、制定各种标准与指导意见较为密集的一年,如:《关键信息基础设施安全保护条例》《网络安全审查办法》《网络数据安全管理条例(征求意见稿)》《数据出境安全评估办法》《个人信息出境标准合同规定(征求意见稿)》等。
在这一年中,各行业企业在数据安全与个人信息保护的合规投入重点,已经开始逐步从制度规范体系建设向数字化、自动化技术工具的研发建设转换,新兴数字技术大量应用于数据与个人信息保护过程中。这其中,隐私计算是一项“明星技术”,能够对数据实现“可用不可见”的操作处理。围绕数据安全和隐私保护这一主题,一个值得关注的问题是将“可用不可见”拆解为“可用性”“可见性”“可得性”,并聚焦“可见性”和“可得性”的各种组合情境,将隐私计算及相关一系列数字技术(包括敏感信息分类分级、自然语言处理、多方安全计算、联邦学习、可信执行环境、数据虚拟化等技术)进行细化梳理。面向不同情境,相应的数字技术梳理如下:
1、数据可见&数据可得:该情境下需要运用敏感信息分类分级相关技术。对数据提供必要安全保护的前提与基础是在数据识别与分类分级基础上,对数据打上安全属性标签,针对数据处理场景、访问者身份、传输渠道等,部署合理、恰当的加密、脱敏、防泄露等保护手段。针对数据分类分级这一难点问题,一方面国家法规及行业标准中制定了分类分级策略和标准等指引,另一方面企业、组织在落地实施中结合技术手段和支撑工具进行数据分类分级管理,从而切实落地数据分类分级的管理和保护义务。
这里值得进一步关注的技术包括:面向结构性数据开展分类分级和标签管理往往是在企业数据资产管理平台上开展的;为解决数据标注时“有多少数据就要有多少人工”的问题,机器学习中的半监督学习、自监督学习等技术能够发挥较好效用;除结构性数据外,非结构性、半结构性数据也应运用自然语言处理、知识图谱等相关技术,开展敏感信息分类分级以及自动化标注和基于有监督学习的智能识别工作。此外,有研究表明量子计算对机器学习、自然语言处理等智能技术有效能促进的作用。
2、数据不可见&数据可得:该情境下需要使用数据去标识化、多方安全计算等相关技术。数据去标识化是个人信息保护中最常用的技术之一,指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。《个人信息保护法》第五十一条就提出个人信息处理者应采取加密、去标识化等安全技术措施保护个人信息。常用的数据去标识化技术包括统计技术、抑制技术、假名化技术、泛化技术、差分隐私算法、密文学习技术等。数据去标识化技术是一定条件下的匿名化技术,使个人数据在不被识别和泄露的前提下,可以用于数据传输、数据分析、数据挖掘等任务,为海量个人数据的巨大价值发挥提供了合规的途径。
多方安全计算是近年来国内外广泛关注的一类隐私计算技术,主要运用密码学的一些重要技术成果,可在不泄漏原始明文数据的前提下,实现数据应用价值,解决数据流通共享中的安全保密问题。多方安全计算涵盖同态加密、秘密共享、不经意传输、混淆电路、零知识证明等多种技术。其中,同态加密技术能够对原始明文数据进行加密处理后,再对密文数据开展四则运算,而后将密文数据下得到的计算结果进行解密,从而获得与明文数据直接开展四则运算相一致的计算结果;而秘密共享技术也可以基于数学逻辑对明文数据进行混淆处理,而后开展多方数据交换,从而实现多方数据汇总计算等应用效果。多方安全计算支持在无可信第三方的条件下,保障各参与方数据输入的隐私性和计算结果的准确性。
这里值得进一步关注的是随着近年来量子计算领域快速发展,以RSA为代表的非对称加密算法面临被破解的风险,而RSA同时也是一种同态加密算法,为此后量子密码学特别是建立在格密码体制基础上的抗量子密码方案,有望使同态加密技术在量子科技时代仍具有重要应用价值;另外,平行于后量子密码学,量子保密通信技术也十分值得关注;此外,有研究表明量子秘密共享方案能够为量子态秘密的安全提供有效的路径。
3、数据不可见&数据不可得:该情境下的代表技术是联邦学习。与同态加密和秘密共享主要用以开展多方数据汇总计算的任务目标不同,联邦学习旨在协同多方共建机器学习模型,实现智能预测识别应用。该项技术是一种多方协同训练机器学习模型的新范式,最初的联邦学习框架是在机器学习本身技术层面思考信息流的传递,保护原始数据不出库。随着联邦学习的技术发展,对联邦学习提出了增强安全的要求,不仅要求保护原始数据,同时要求对中间交互的参数也进一步保护,以此提高系统安全性。基于联邦学习开展智能建模时,各参与方基于自己的本地数据训练本地模型,再通过参数交换和聚合操作,得到全局模型;在该过程中,用户数据始终存储在本地,不对外发送,极大程度解决了一些组织机构的数据安全顾虑,实现了数据“可用不可见不可得”,在保障隐私、安全和监管的要求下,让AI系统更加高效、准确地使用数据,并打破“数据壁垒”、连接“数据孤岛”。
这里值得进一步关注的是联邦学习实际上解决了一方数据存在数据样本、数据特征或数据标注信息受到制约的条件约束下仍实现机器学习模型的可用性,因此其他有助于解决诸如小样本学习问题的新兴技术思想也都值得关注;此外,基于量子计算的联邦学习技术也是非常值得关注的新兴技术方向。
4、数据适度可见&数据不可得:该情境下较为适用的技术方法有可信执行环境、数据虚拟化等。通过硬件增强型安全技术的支持,在特定的硬件环境中建立一个可信执行环境,有效地防止外界触达和攻击敏感的数据与应用,这也是建立起安全可信以及多源数据协同的可行手段之一。可信执行环境技术考虑在不同数据源创建可信区域来用于数据访问,通过应用程序隔离技术,保护使用中的数据,有助于进一步强化数据安全,保证其机密性和完整性,并通过数据适度可见性进一步拓展数据可用性。
面向数据“可用、适度可见、不可得”,数据虚拟化技术也是非常有效的解决方案之一,数据虚拟化可以在不考虑其物理存储或异构结构的情况下访问数据,通过数据视图及权限控制“按需”提供数据、参与计算,同时,源数据依然留在原处,借助数据管控策略及用户和权限管理,数据虚拟化实现了统一且安全的数据治理,保障数据“适度可见”,在数据可用的同时“不可得”。
这里值得进一步关注的是当前量子计算给传统密码学带来新的挑战,在可信执行环境、数据虚拟化等技术底层的数据传输方面,应考虑应用后量子密码学和量子保密通信等新兴技术方法。
数字经济发展对数据智能升级提出了更高要求,小样本学习热度激增当前人类社会已经从大数据时代步入人工智能时代,人们已经不能满足于仅对数据进行简单加工处理形成信息的常规应用,基于大数据的人工智能发展如火如荼;但同时也不得不思考这样一个问题 -- 是否只有大数据才能驱动人工智能,若没有足够量的数据样本就意味着无法实现人工智能了吗?显然,无论数据样本量如何都不会影响人们追求和获得人工智能能力的决心,因此小样本学习新兴技术应运而生。
小样本学习不仅在学界被认为是从现有的数据智能迈向更强人工智能的重要一步,同时在业界应用方面也颇具现实意义和重要实用价值。产业数字化是数字经济发展的重要方向之一,而产业数字金融则是产业数字化、数字经济规模化发展的加速器。产业数字金融风控所面对的数据要素情况不同于消费数字金融和普惠数字金融那样的大规模样本量,特别是对公业务区域化、生态化、场景化细分后,数据样本量很小,加之有些新行业新业务尚在“冷启动”阶段,尚未有效积累业务数据样本,因此在数据要素方面很难满足风控建模的需要。这时,小样本学习技术就派上用场了。
从目前发展来看,当样本量充足时,存在于数据中的规律更容易被归纳出来,并且在测试数据上可以得到具有更小泛化误差的知识模型。然而,在数据样本量很小且“正例”样本量极小的苛刻条件下如何实现数据挖掘与机器学习,这是值得关注的。借鉴精益六西格玛“人-机-料-法-环-测”方法论框架,小样本学习的多种技术方法可以被梳理如下:
1、基于人类专家经验的小样本学习是指依托业务专家经验形成规则来构建模型,常见的技术方法包括规则模型、评分卡模型、层次分析法模型、社交网络与知识图谱模型等。
2、基于数据资料增强的小样本学习通过增加数据量将样本扩充为大样本来实现机器学习建模,常见的技术方法有两类,一类就是前面提到的在“数据可用不可见”思想下,利用联邦学习技术来实现多方共建模型;另一类是基于数据本身,通过样本增强的方法,如采用SMOTE、GAN等技术方法来扩充样本量从而支持建模。这里值得进一步关注的是SMOTE、GAN的量子版技术QSMOTE、QGAN当前正在得到发展。
3、基于算法改进的小样本学习聚焦算法创新,选择适当的嵌入方法将数据的原始特征嵌入到一个可分的空间,在新空间构造特征后进行建模,常见的技术方法包括支持向量机中的核函数法、分类关联规则挖掘中的频繁项集法和利用网络进行特征嵌入法等。这里值得进一步关注的是支持向量机和关联规则挖掘当前也发展出了量子版算法QSVM、QARM等。
4、基于仿真环境的小样本学习允许在极少样本甚至零样本的极端条件下,通过梳理业务传导逻辑,构建端到端的数字孪生仿真模拟环境,并通过强化学习技术实现模型构建。这里值得进一步关注的是某些强化学习任务可以通过量子近似优化算法快速解决。
5、基于预测模型调整的小样本学习从模型的角度入手,利用某类数据集学会一种学习的机制,然后将模型迁移到目标小样本数据集中,通过参数微调使得模型具有更强的泛化性,常见的技术方法包括迁移学习、元学习等。
6、基于计算机发展的小样本学习基于量子科技发展,将经典计算机升级为量子计算机,从而对小样本数据集直接构建量子算法模型,实证表明该类技术方法在解决小样本学习问题上较传统机器学习算法有着明显的优势。这里值得进一步关注的是该方案随着量子科技的发展日益展现出蓬勃的生命力。
展望2023年大数据产业发展,随着量子科技时代的全面开启,量子科技将为AI大数据创新发展注入新动能。实际上,当前量子科技发展的两大方向“量子计算”和“量子通信”能够使大数据领域的“数据智能”和“数据安全”变得更加“矛尖盾厚”。2022年10月4日,诺贝尔物理学奖不负众望地颁给了量子信息领域,法国物理学家阿斯佩(Alain Aspect)、美国物理学家克劳泽(John F. Clauser)以及奥地利物理学家塞林格(Anton Zeilinger)凭借在量子信息科学方面取得的卓越成就获奖,再次引发了全球范围内对量子科技的高度关注。
1、从数据应用的全生命周期视角来看,无论是在数据的生成与采集阶段,还是在数据的传输与存储阶段,亦或是数据的计算与应用阶段,量子科技都将为AI大数据发展提供新思路、新方案。
在数据生成与采集阶段,以量子生成对抗网络QGAN及QSMOTE算法为代表的一系列新算法,结合数字孪生和仿真模拟等方法论体系,有望从数据源头上对小样本数据集或不均衡数据集进行有效补充和增强,进一步扩充数据之源。
在数据传输与存储阶段,以量子直接通信、量子密钥分发技术为代表的量子通信方案已在金融领域应用落地,量子通信可以为数据传输提供受物理学定律保护的高度信息安全方案,通过为数据资产打造“量子镖局”,实现对关键信息传输与流通的“保驾护航”。在该阶段后量子密码学也大有用武之地。
在数据计算与应用阶段,量子机器学习类算法已经在小样本学习问题方面表现出良好效果,后续有望进一步实现突破,为各行各业各类业务发展中需要运用数据挖掘与机器学习算法模型的方方面面提供有效的量子算法支撑;面向组合优化类问题,以量子算法解决NP-hard问题已被证实表现出了良好的应用潜能,后续有望进一步扩展应用;此外,量子优化类、量子仿真模拟类算法也已得到初步应用,后续有望运用量子仿真模拟相关算法对基于蒙特卡洛等经典模拟方法进一步优化升级,从而解决更加广泛的数据计算与数据应用问题。
2、从新技术组合创新的演进视角来看,量子科技将为以AI大数据为中心的新技术组合式发展注入全新动能。
当前科技大发展时代,云计算、区块链、隐私计算、机器学习、自然语言处理、计算机视觉、多模态识别等新兴技术层出不穷,而这些新兴技术均与AI大数据领域发生交集。显然,量子科技也会与这些技术领域发生交集,从而发展出量子云计算、量子区块链、量子隐私计算、量子机器学习、量子自然语言处理、量子计算机视觉、量子多模态识别等全新方向。这些新方向也将进一步赋能以AI大数据为中心的新技术组合式发展。
·关于王彦博:
王彦博,博士,副研究员,龙盈智达(北京)科技有限公司首席数据科学家、副总裁级;曾在英国曼彻斯特大学和剑桥大学任博士后副研究员及访问学者;兼任国家开发银行专家委专家资源库专家、中关村大数据产业联盟智库专家、腾讯云TVP最具价值专家、纽约金融学院特聘专家、《财务管理研究》杂志编辑委员会委员、对外经济贸易大学金融科技研究中心副主任兼研究员、对外经济贸易大学统计学院研究生导师,并在北京师范大学、外交学院、英国南安普顿大学担任校外导师。他是英国利物浦大学培养的首批数据挖掘专业博士;是国内首批EXIN数据保护官,DAMA中国“十大数据治理专家”;获省部级科技奖励一等奖1项、二等奖9项、三等奖2项;获国家专利1项,软件著作权30余项,参与研制金融行业标准3项;发表著作1部、译著1部、著作章节4篇,参与编写专业书刊和培训教材7本,发表学术文章100余篇;在国内外顶级科技赛事上获奖10余项;留学期间曾获国家优秀自费留学生奖学金等重要奖励。
《2022中国企业数智化转型升级服务全景图/产业图谱2.0版》
❷ 创新服务企业榜
❸ 创新服务产品榜
❸ 最具投资价值榜
❺ 创新技术突破榜
联系数据猿