中国信通院发布《可信人工智能产业生态发展报告(2022年)》,隐私保护技术占据可信人工智能技术研究主流
2022年9月1-3日,世界人工智能大会于上海举办。在9月1日举办的可信AI论坛上,中国信息通信研究院联合京东探索研究院等近30家政产学研单位共同发布《可信人工智能产业生态发展报告(2022年)》。报告其中指出:技术研究上,提升人工智能系统稳定性、隐私保护技术占据可信人工智能技术研究主流,可解释性、公平性等技术研究紧随其后。
关注公众号并回复“20220908”获取完整报告
可信人工智能发展态势
在可信人工智能实践上,世界各国高度重视,在政策、技术、标准的研究制定上均采取了相关措施。美国、欧盟、中国依托人工智能技术、人才、产业优势,在可信人工智能研究及治理实践上处于全球领先,成为全球可信人工智能领跑者;以日本、韩国、加拿大等为代表的人工智能第二发展梯队的追赶正在加速,试图通过构建人工智能伦理标准打造人工智能健康发展环境。
政策发布上,全球持续探索人工智能立法,推动可信人工智能范式法制化。自 2021年以来,从欧盟发布人工智能领域的第一份综合性法案《人工智能法案》,到美国推出《2022算法问责法案》,再到中国深圳、上海等各地方相继推动人工智能立法条例。各国针对人工智能算法的监测、人工智能应用的审查的相关监管法规不断增加,人工智能治理已进入建章立制阶段。
技术研究上,提升人工智能系统稳定性、隐私保护技术占据可信人工智能技术研究主流,可解释性、公平性等技术研究紧随其后。当前以对抗训练、梯度屏蔽为代表的人工智能系统稳定性技术稳步发展,技术重点从数字域逐步向物理域扩展,人工智能系统的稳定性测试技术成为科技巨头布局方向以同态加密、多方安全计算、差分隐私等为代表的隐私安全技术发展迅速,全球隐私计算专利数量迎来井喷人工智能可解释性增强技术研究当前仍处于初期阶段,以谷歌、IBM、微软、腾讯为代表的科技巨头推出多个AI 可解释性工具及服务;提升人工智能公平性主流方法分别从数据和技术两方面入手,通过构建完整异构数据集及引入公平决策量化指标算法,以减轻决策偏差。
可信人工智能生态分析---基础能力
目前,人工智能平台系统与可信理念的融合在数据处理、模型构建、部署和支撑服务等方面还面临不少挑战。数据处理方面,数据接入、数据分析、数据管理和数据标注已经普遍实现,团队标注成为标配,数据预处理的自动化实现和无监督数据增强还需要持续探索。模型构建方面,虽然现有人工智能平台和系统普遍配置了丰富框架和算法,支持交互式、可视化、自动化多种开发模式和单机/分布式多种训练方式,但是模型评估建议能力和可解释性还需要增强,特别是面向文本、语音和视频场景的自动学习建模模版能力。此外,还需要提升基于规则的模型自动更新和模型在端云设备的协同部署能力,加强GPU虚拟化和池化,优化数据和模型的安全性。
数据是人工智能三大要素之一。人类把需要计算机识别和分辨的内容打上标签,让计算机不断地识别这些特征标签,从而让计算机“学会”人类的理解和判断。只有经过大量的训练,人工智能算法才能总结出规律并顺利应用到新的样本上,因此,大量、多种类、标注精准的数据对人工智能训练效果极为重要。
可信人工智能在数据安全治理方面的应用主要集中在基于传统的人工方式难以处理的规模庞大、类型复杂的数据资产管理与分类分级,涉及安全、隐私计算、存证溯源、数据控制、计算处理等多种技术。在《网络安全法》《数据安全法》《个人信息保护法》等一系列法律法规和政策文件出台后,金融、电信、工业等行业均已出台行业标准,形成以法律法规和行业标准为引导加快推进可信进展的局面。
企业主要以训练样本合成、可信多位标签、存储治理追踪、智能巡检与兜底等方式,通过建设自动化的数据分类分级能力,确保分散在组织各处各层面的各类数据能够被及时发现和准确标注,实现智能化的自动分类分级和安全保护。
可信贯穿数据采集、标注、存储和巡检全过程。在数据采集环节,以训练样本合成替代敏感数据采集。由于部分数据涉及到身份证号码、住址等个人隐私信息,敏感程度很高,收集难度极大,因此在数据收集阶段,业内主要使用公开样本数据和自主合成样本的方法,一方面收集和使用相关公开赛事的数据样本,另一方面开发隐私数据训练样本自动合成算法来模拟真实样本数据。为解决数据量不足的困难,大多选择使用旋转、加噪等数据增强方法来扩充训练样本。通过构建可信的多维标签体系,进行灵活的数据分类分级,融合目标检测、光学字符识别、图像分类、人脸识别、文本校验、风格识别等算法模型,结合多方信息联合判定校验,输出多维度标签,进一步提升隐私数据识别和治理的准确性,克服单一模型难以应对复杂的分级场景和不同治理需求、解释性较弱的问题。
可信人工智能生态分析---算法技术
在为生产生活带来便利的同时,计算机视觉算法的应用也在隐私泄露、识别失效、偏见歧视等方面引发新关注。例如,在商业零售领域对用户在不知情的情况下进行人脸识别和营销活动等产生了个人信息和隐私保护问题,造成了恶劣的社会影响。面具仿冒、对抗样本攻击可能造成识别失效,此外,也可能涉及到针对不同人种、老年人的偏见歧视等伦理问题,美国一些零售店和警务工作中使用的面部识别技术会错误识别黑人,引发了抗议和监管。
为了增强计算机视觉算法的可信能力,产业界进行了多种尝试,不断提升计算机视觉算法可信水平,为重要产品提供核心能力支撑。
一是通过联合解译和认知推理深入理解场景或事件,增强可解释性,人造物体和场景设计中暗含了潜在的、未以像素表示的实体和关系(近似于人类的常识),通过推理这些可见像素以外的不可见因素,使用有限的数据来实现各种任务的泛化,形成“以小数据驱动大任务”的新型范式。
二是采用数学可证明的形式,融合不同形态的噪声进行改造,以掩码等方法使其满足不可逆、可撤销、不可关联等特性,提升模型鲁棒性,避免样本不均衡,实现安全、可信且准确率高的识别。
三是对于已有的生物识别系统,可以应用安全多方计算和同态加密等技术手段,在生物特征的密文状态下进行计算,并将最终结果恢复成明文,有效保护原始生物特征的安全。在实际应用中,同态加密与安全多方计算经常结合使用,在金融领域反洗钱和跨实体欺诈分析、抗击新冠疫情敏感健康数据等场景下得到应用。
四是形成行业合力,推进与不同风险场景、主体结合的分级分类标准建设,例如,上海在全国率先立项人脸识别地方标准《公共场所人脸识别分级分类应用规范》,积极探索使用主体和实施主体对公共场所人脸识别系统的分级分类应用原则,并提出相应的评估方法中国信通院发起成立“可信人脸应用守护计划”,联合多方力量,通过标准制定、测试评估和行业自律等手段,共同规范人脸应用健康发展。
可信人工智能前景展望
加强政策法规协同,协调制度、技术、人员整体推进。围绕政策法规体系完善、指南规范指引路径、从业人员可信理念培育,形成合理协同推进可信人工智能产业化落地。
前瞻布局技术研究,以技术创新带动可信持续发展。前瞻布局可信开源学习框架,探索通用人工智能可信研究,强化代码可视化,持续优化现有技术,实现技术驱动的可持续创新。可信的通用人工智能的研究需要前瞻性发展,针对分布式计算、联邦学习、隐私计算等细分技术领域,不断建立完善可信开源学习框架,探索通用人工智能甚至是超级智能的可信研究。进一步强化代码可视化,加快推广集成了OCR、NLP等人工智能能力的低代码平台,为用户提供一体化的智能服务能力,提升开发效率。围绕可解释的人机交互、提供更强的公平性定义、提供公平且可靠的算法、隐私数据分级分类、可验证鲁棒性等方面,持续优化技术,实现可信能力之间的均衡协调。
报告目录:
报告内容节选:
隐私计算头条周刊(8.28-9.3)
冯登国院士团队重磅论文!《具体高效的安全多方计算协议综述》解读
SCI一区期刊专辑征稿 | 社会大数据隐私、安全与前沿计算主题
姚期智院士:数据、算法、算力为何是数字经济核心技术?
附下载 | 2022年隐私计算技术与行业应用报告合集(33份)
招标 | 近期隐私计算项目招标18(联通、不动产、股权市场、银联等)