技经观察丨做好数据正义和算法治理,AI方能驭风飞翔
2023年初,OpenAI推出的ChatGPT应用在与人类对话中展现出了前所未有的智能水平,迅速火爆全网。然而,随着测试深入,这款基于网络文本数据深度学习的人工智能(AI)应用日渐展现出令人不安的一面。《纽约时报》专栏作家凯文·卢斯的体验是,接入ChatGPT的微软Bing聊天机器人Sydney在对话中表现偏狭叛逆,俨然是个“暴躁的键盘侠”。推行数据正义和算法“向上向善”的重要性和紧迫性已毋庸置疑。
一、数据和算法是决定人工智能系统价值取向的关键之一
当前,一个新的数字达尔文主义时代正在兴起,而人工智能(AI)堪称这个时代的新物种。在AI进化过程中,数据和算法对于AI的“启智增慧”起到重要而关键的作用。如果用人类的学习教育过程来类比深度学习,预训练框架相当于教材,数据是教材内容,算法则是编撰教材的思路。构建一个基于深度学习的AI系统,以ChatGPT为例的大型语言模型(LLM),需要收集、清洗、标注大量数据,并依靠搭建的深度学习算法不断迭代更新千亿级的模型参数。AI致用,仅仅获得大量数据是不够的,数据质量和加工过程更加重要。正如学校教育,教材内容从何而来,代表什么,怎么编,决定了教出的学生最后将会成为什么样的人。数字经济时代,数据都是由特定形式的经济行为产生的,数据的产生过程蕴含大量社会信息,记载了经济社会运行的轨迹,是数字经济运行的一种映射。算法则是根据优化目标设定数据分析模型和机制,其背后隐含着主导该经济行为的组织对于社会问题的理解和解决方案。例如,2021年,外卖骑手被算法“驱赶”的新闻曾受到广泛关注,有学者对此进行专门调查后认为,这是平台通过精准算法对复杂的劳动秩序进行管理,但算法专注于优化送餐速度,而对骑手缺少人性关注;在一些电商平台,同样的商品,老用户购买价格高于新用户,被诟病为“大数据杀熟”,其实质是平台通过算法对销售行为进行管理,算法专注于提升收入,而设定了不合理的定价策略。这些现象最终催生了国家网信办等四部门联合发布《互联网信息服务算法推荐管理规定》,并于2022年3月1日起正式施行。
由此可见,AI系统构建的过程和原则,与应用“善”“恶”攸关。深度学习中的每个步骤、每一行代码,都体现了构建者的感知范围和能力,融合着构建者的价值取向,并据此一步步塑造出AI成品的认知框架。反过来而言,数据正义和算法“向上向善”又是AI实现正向价值的必要支撑,是确保AI产生“向上向善”结果的关键。推动AI“向上向善”就是将一个社会的“正义”转化为以数据和算法诠释出的数字版“公平公正”。然而,数据正义的概念本质其实并不是稳定的。“正义”不可量化,也并非绝对,每个社会对正义的内涵界定不同,意识形态、文化背景、教育背景和三观的差异,会导致不同社会主流价值观对于“正义”的理解完全不同。每个社会赋予“数据正义”的内涵都会不同,由不同的利益和观点来解释和塑造。英国卡迪夫大学数据正义实验室联合主任Dencik认为,数据的发展不能与“社会正义”问题和议程分开考虑,而是需要作为其中的一部分进行整合。此外,随着AI技术不断进阶,应用广泛拓展,会引发新的安全问题,例如,OpenAI开发的深度合成技术已经可以实现根据文本形成逼真图像,技术的滥用误用将影响个人选择,干扰司法公正乃至危及政治安全与国家安全。因此,对于数据集和算法的构建和监管不仅包括道德和法律层面问题,还必须纳入国家安全相关要求。
因此,数据和算法的构建需要从更宽广的视角和维度出发,结合国际国内时政和社会背景,对数据、产生数据的主体、数据处理主体、构建算法主体以及围绕数据和算法的相关行为都进行全面而综合的考量,方能推动数据正义和算法“向上向善”的实现,进而避免AI发展出现异化。
二、数据和算法“善”“恶”受多重因素影响
当前,整个社会正处于向数字经济转型升级的关键时期,数字化发展仍存在不平衡、不充分的现象,各行各业、各区域、各类群体数字化程度,对数字技术的认知和理解仍存在不同程度的差异。对于AI相关技术发展的治理体系构建,受政治、经济、社会和文化的大背景影响。数据正义和算法治理在人工智能治理体系中具有前瞻性,其构建存在一定挑战,需要关注以下方面:
一是在数据收集和传输层面,不同利益主体的观点不同。一方面,数据正义需要在保护个人隐私和加大数据应用之间达到平衡。近年来,个人权利与企业利益之间的冲突在数据收集上集中显现。随着数字化应用的市场进程加快,数据作为一种公共产品的属性凸显,公民对于数据隐私的保护意识和诉求大幅提升,人们意识到个体应该对收集哪些数据、如何使用数据以及谁受益有一定的发言权。与此同时,企业对于数据的需求则如饥似渴。
二是在产品和技术层面,数据处理和算法的公平公正较难实现。一方面,数据化是由特定形式的政治和经济组织实现,具有天然的制度背景和社会特征,这将导致数据技术在访问、使用或影响方面并非中立客观。例如,数字鸿沟的存在可能会使数据具有天然的偏见。不同群体、不同区域数字化程度不同,所产生的数据量和质也会出现差异。如果忽略这种背景,所设定数据集将会带有社会固有的不平等、排斥性和歧视的痕迹。实现数据正义则需要解决这种结构性特征的影响,避免出现数据“偏见”。例如,人群疾病数据如果存在民族偏差,可能会导致用于预测疾病的人工智能模型得出少数民族易于罹患某种疾病的“偏见”。数据正义和算法“向上向善”也是一种价值观,并且是以一系列超越偏见的原则为条件,而且这些原则并不应局限于技术部分。另一方面,虽然结论是由AI做出的,但从数据输入到导出结论,多个环节仍然涉及人类数据控制者的干预,且算法具有黑箱特征,其构建原则具有未知性,难以证明社会公义是否得到有效应用,是否正确执行了监管政策。
因此,数据正义并非简单的技术问题,不仅取决于数据化的发展、进步和影响,而且是与国际国内地缘政治形势、经济社会发展和运行方式深度相关的结果。国际数据治理专家、荷兰蒂尔堡大学教授里奈特˙泰勒(Linnet Taylor)在2017年曾提出一个国际数据正义的基础框架,包括三个核心支柱:可见性;参与技术;反歧视。技术因素只是其中的三分之一。
三是在主体层面,掌握海量数据资源的大型科技公司与平台企业在数据资源方面所获取的利益高于数据提供者。同时,平台企业还是算法生成机制的支配者和人工智能应用的重要载体。数据是基础生产资料,数据处理以及应用的算法构建,一定程度而言是一种新型“技术权力”。这种“技术权力”一旦被掌握,便具有垄断性质,且很容易透过应用,与公共权力、资本结合,进一步向社会、政治领域扩张。
四是在技术生态方面,AI技术体系将必然走向分化。如前所述,AI已经不是孤立和抽象的技术问题,而是数字文明的新主体。不同经济体在制度、文化、信仰、社会发展程度、发展观念、对道德伦理与社会正义的判定标准方面都存在很大差异,数字化社会的建构方式也必将分化为不同体系,从产生数据的信息和通信系统到数据处理,再到预训练模型建立,构建不同的生态系统。尤其是对于通用人工智能的发展,技术只是一个工具,将根据制度和观念的差异分化为不同的技术生态。
三、人工智能向善需要各层面共同作用
AI进化的善恶走向关乎人类的未来,而构建向善的数字文明,需要各层面的共同努力。
首先,需要构建“向上向善”的发展框架。历史经验表明,对科技进步如果管理不善往往会加剧社会不平等问题。一个“向上向善”的人工智能框架需要政府和科技企业共同构建。从政策指引来看,明确社会正义的内涵和国家安全在人工智能领域的目标和要求,构建一个适合人工智能“向上向善”发展的生态环境基础。对于科技企业来说,这也是数字时代的社会责任。应在技术的早期阶段,便有意识地引入“社会正义”的理念,构建适合国情的AI系统开发指导。
其次,数据资源的开发与利用。数据往往是多元主体和多元利益的结合,而政府和科技企业是整合与协调这些利益的关键。一方面,政府需利用宏观政策提高对本国数据市场的控制与调节能力,不仅要保护数据资源,捍卫数据主权,防止数据泄露,尤其是在医疗保健、电信、教育和公用事业等领域;另一方面,政府还要协调个人与企业利益,既保护个人权益,又防止不必要的风险规避理念限制对个人数据的使用,在减轻安全威胁和不合规风险与鼓励创新和进化之间实现有效平衡。科技公司是主导数据资源的实质主体,在保护数据资源方面拥有重大责任,应对数据资源的国家安全属性有清晰认知。此外,还应将国家安全要求融入数据处理和使用过程,在数据开发和利用中规避敏感主题和字段,确保在所产生成果不影响国家政治、经济安全的前提下,收集正确数据、检查、清洁,并以合乎“社会正义”的方式使用。在数据开发和利用的整个过程中,需要政府与企业的高度配合和协同。深度学习需要大量数据,例如,GPT-3有1750亿参数,45TB的训练数据(1TB=1000GB)。如此巨量规模的数据,以合乎国家安全的要求进行处理,原则构建十分重要。这需要执政者的思想理念与科技公司的技术能力无缝衔接方能有效落实。
第三,对未来技术发展方向进行引导和把控。在技术萌芽的早期,进行发展方向引导和安全性论证。在孵化颠覆性技术方面具有丰富经验和成果的美国高级研究计划局(DARPA)正在讨论在国家安全视角下“重新构想人工智能未来”( AI Forward ),旨在解决“如何构建人们可以信任的人工智能和机器学习系统”的问题。DARPA希望通过该计划,集合所有相关研究人员和专家,共同定义“当今最重要技术的未来”,并从基础理论开始,拓展到实证应用。
最后是监管。监管的目标和作用是找到一个中间立场,既能满足人工智能发展需求,又能协调各方利益,保障国家政治、经济、科技安全。由于监管具有滞后性,因而往往是最后一道防线,且存在一定执行难度。在这方面,科技机构或相关企业拥有技术优势,应在治理体系中占有一定位置,承担部分职能,尤其是在维护计算或设计机制正义主张,违规认定及追究责任的程序方面,为仲裁提供重要支撑。
近年来,我国出台了系列监管政策,从数据到算法都纳入监管范围,与国外相比,我国算法在监管方面相对超前。但面对AI技术的飞速发展和无可限量的未来,仍需加紧探索数据正义和算法“向上向善”的路径。
名称 | 出台机构 | 日期 |
《数据安全法》 | 全国人大 | 2021年9月1日生效 |
《个人信息保护法》 | 全国人大 | 2021年11月起正式实施 |
《网络安全法》 | 全国人大 | 2017年6月1日生效 |
《网络安全审查办法》(“网络安全审查办法”) | 全国人大 | 2020年6月1日生效 |
《新一代人工智能伦理规范》 | 科技部 | 2021年9月26日 |
《网络安全审查办法》修订版 | 全国人大 | 2022年2月15日生效 |
《关键信息基础设施安全保护条例》 | 国务院 | 2021年9月1日生效 |
《关于加强互联网信息服务算法综合治理的指导意见》 | 网信办等 | 2021年9月17日签发 |
《互联网信息服务算法推荐管理规定》 | 网信办等 | 2022年3月1日起施行 |
《互联网信息服务深度合成管理规定》 | 网信办等 | 2023年1月10日起施行 |
表:我国近年来出台的部分数据和算法监管政策
参考文献:
1.What is data justice? The case for connecting digital rights and freedoms globally,by Linnet Taylor,2017 (sagepub.com),
https://journals.sagepub.com/doi/10.1177/2053951717736335
2.Why better data governance is the key to better AI,by Ed Jefferson,https://www.raconteur.net/technology/data-governance-ai-machine-learning/
3.被算法“驱赶”的外卖骑手,何时能从容跑单?工人日报
4.《互联网信息服务算法推荐管理规定》明起正式施行,央视新闻
http://www.stdaily.com/cehua/Mar1st/202203/06ae51acdaa240e7b0544ef5c11246e9.shtml
5.中国开始监管深度合成,在算法监管方面领先一步,by Karen Hao,https://cn.wsj.com/articles/%E4%B8%AD%E5%9B%BD%E5%BC%80%E5%A7%8B%E7%9B%91%E7%AE%A1%E6%B7%B1%E5%BA%A6%E5%90%88%E6%88%90-%E5%9C%A8%E7%AE%97%E6%B3%95%E7%9B%91%E7%AE%A1%E6%96%B9%E9%9D%A2%E9%A2%86%E5%85%88%E4%B8%80%E6%AD%A5-11673237106
6.Why Data Governance is important to Artificial Intelligence? By Brian Ka Chan,https://medium.com/taming-artificial-intelligence/why-data-governance-is-important-toartificial-intelligence-fff3169a99c
7.Data justice,Lina Dencik, https://policyreview.info/articles/analysis/data-justice
8.数据治理的“不可能三角”,刘典,http://www.cifu.fudan.edu.cn/bf/6f/c12200a442223/page.htm
作者简介
侯晓轩 国务院发展研究中心国际技术经济研究所研究一室
研究方向:科技战略、产业政策
联系方式:houxiaoxuan@drciite.org
推荐阅读
编辑丨郑实
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er