查看原文
其他

(下)算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则

不同人眼里的算法黑箱究竟都是什么?面对不同对象的不同需求,如何构建更为合理的算法透明规则?为何算法透明是算法治理的核心要求?


《追AI的人》第2期直播《算法“黑箱”与算法透明》中,阿里研究院数据经济研究中心副主任、高级研究专家傅宏宇做客现场,用两小时畅聊“算法透明”。


上篇主要阐述了算法黑箱的概念,并说明想要实现算法透明的目标需要满足政府及公众哪些要求。本文将讲述不同主体对算法透明的要求,并对算法透明的争议和实现展开探讨。全文总计上万字,分为上下两篇。


🔻上篇请点击:

算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则(上)


下篇共计6640字,下面展开讲述。


傅宏宇

阿里研究院数据经济研究中心副主任、高级研究专家。北大生物、经济学士、法学硕士,美国法学博士。豆瓣男神,曾任两部电影男主角。




下篇要点


二、算法透明需满足不同对象的哪些需求?·  自动化决策的退出:背单量·  面向骑手解释:透明度滑尺·  算法与数据的关系三、算法透明有限度么?要“打开黑箱”(公开源代码)么?·  算法透明=披露源代码?NO!·  如何解释算法的迭代?

四、算法透明如何实现?专业人士有何作用?

·  算法透明的实现路径·  算法透明中专业人士的作用

五、总结:一张图解构算法透明


02算法透明需要满足不同对象的哪些需求?



自动化决策的退出:背单量


背单量是指外卖骑手在特定时间段能够同时接受的单数的上限。外卖订单并非点对点的,外卖算法会合并起点和终点接近的订单,让一个骑手能够在一次长距离配送中完成多单配送。


一方面,这种方式可以提高配送的效率,节约骑手的人力资源,另一方面,骑手的收入也可以有一定的增长。然而随着业务进行,骑手对背单量由机器来判定和做出要求的意见也逐渐增多。

“算法是一单的算法,而不是多单的算法”。当加入其他变量时,算法很难去进行优化。比如说在高峰期同时进行5单,其中有1单出了问题,很可能会出现连锁反应,往往的结果就是“第一单不顺,剩下的单单不顺”。

因此也希望大家点外卖的时候,可以对骑手们多一点耐心,他们真的是挺辛苦的,不是说送完我们这一单就结束了,有可能我们这一单外卖正好是他们的第一单,会关联到他们整天的接单量、背单量,关联到他们一整天工作的收入。

从总结的量表能看到,背单量越高,收入确实会有所提高;但是随着背单量的增加,异常情况的概率、骑手的心理压力也不可避免的有一定程度的提高。这中间产生的差距,就是算法难以优化的地方。

这个时候应该如何解决呢?我们提出来的解决方案就是算法取中——取消背单量的固定值,而是找一个范围区间。比如说让骑手从2单到5单之间自己选择接多少单,根据自己的心理状态、交通情况、上一单的配送顺畅度等来决定是否要同时背多单。

对于用户的算法,透明是最核心的。要在核心变量上面,要把决定权交还给用户,把一些最核心的变量不让算法去想,交由人去决定。


面向骑手解释:透明度滑尺


透明度面向骑手、面向用户到底是怎么样去做的?在什么样的情况下透明才会产生让大家理解和信任的效果?结论是透明度不是一成不变的,是因算法对于权益的影响而变化的。


从图中可以看到,随着对骑手权益影响由低变高,算法透明度应该越来越全面。骑手们在利用外卖APP进行配餐的时候,就应该向骑手们告知算法的设计原理、决定事项、运行机制和审核保障机制,让骑手对算法决策最基本的了解。这就是所谓的普遍告知

随着这个算法对于骑手权益影响的增加,应该向骑手提供更加个性化的解释,对骑手权益的影响进行说明。假如骑手派送过程中遇到了修路、交通事故、恶劣天气等情况,算法还没有来得及更新,这时骑手的权益可能会受到很大的影响。这个时候算法就要让骑手知道在这样的情况下,应该怎么样去处理这种特殊情况。

另外在特定的情况下,应该有更多的解释说明,最核心的是要进行人工的沟通和介入,不能让算法来解释算法。自动化客服是没有办法实现算法解释的,特别是当权益受到严重影响的时候。当骑手突然遭受交通意外,应该要接入到人工客服,立马进行人工介入,这才是最优解。

在透明度的过程中,应该做到对于一般性内容进行普遍解释,对于权益受到影响的内容进行详细的沟通,对于权益受到严重损害的情况进行人工干预。自动化客服的反馈是算法透明的一个重要内容,可以有效提高回复效率,解答普遍性的问题;但是当用户权益受到严重影响,或者用户心理感知严重偏离预期时,需要有更好的解释机制去解决的。


算法与数据的关系


最后在面向消费者和用户解释的时候,我们要解释的一个核心要点就是算法和数据的关系。我们知道算法透明需要数据来源合法、数据利用合理,平常骑手往往会反馈一个问题——你看其他的人为什么能够跑得快,是因为他们都在违章,他们都在闯红灯,而后平台算法开始学习这样的行为,开始用这样的一种闯红灯的数据来训练、来要求我们,最后平台规则和交通规则我们到底选哪个?从中我们可以得出结论:依据违法行为数据所训练出来的算法必然会强化违法的结果。


所以算法透明要求对于数据源头的透明,我们要排除违法的数据,防止它直接进入到算法系统之中。我们得到的数据或者是用来训练算法的数据,一定要是是合法的数据,我们的利用数据一定要是合理的。

关于这方面,在外卖算法中有一个很好的应用——外卖算法中的数据加强。在外卖场景中,恶劣天气的判定一般是通过接入政府的第三方天气大数据实现的,它更新的实时性可能不一定很及时,在这种情况下就引入了骑手随手拍的这样一个场景——骑手拿出手机对着恶劣天气拍一张发给客服,客服确认之后加入到这个数据的判定级之中,来确定目前的天气情况,反馈给骑手现在是否需要派单,如果台风来了,还可以给骑手一些奖励。通过这样一种机制,往往能让这个算法产生更好的结果。


所以在数据利用的时候,一方面要排除坏的数据、违法的数据,另一方面也要通过一些方法让算法更好地利用好数据,得出更好的结果。这就是为什么我们要在算法透明过程中注意数据本身的质量的原因。


03算法透明有限度么?要“打开黑箱”(公开源代码)么?



算法透明=披露源代码?NO!


黑箱是否需要把它打开?打开实现有哪些限制? 


  • 算法是受到法律保护的,按照我们国家相关的法律,我们国家的主权是基于我们的网络空间的,也就是说算法所运行的空间是属于我们中华人民共和国的。在这样的一种情况下,对于算法的侵犯就构成了对于主权的侵犯,尤其是这种跨境的对于算法的攻击和非法披露。算法本身的运行,特别是刚才我们谈到的对国计民生有很大影响的,对于社会运行有支柱性作用的这种算法,它还受到过我们的网络信息系统安全相关的法律,比如说网络安全法的保护。同时我们算法所利用的数据或者是它产生的数据,也是受到了数据安全法的保护,所以说在它本身上面附着的国家安全的这样的一种利益。

  • 我们也看到了算法对于个人权益的影响,我们在解释算法的时候很有可能会带出他人在该场景中已授权的隐私,涉及到了其他人的生活安宁的这样的一些权利。

  • 算法也可能会产生对于他人的权益的影响。我们再去解释一些算法的时候,很有可能会影响到他人的权益,包括算法所使用的其他人的隐私信息、企业有价值的数据,所做出的影响他人权益的判断等,不加限制的进行披露可能侵犯隐私权、信息财产权,影响市场竞争秩序。在算法解释的时候需要考到,对算法解释不能影响到其他人在算法上的合法权益。

  • 算法本身是开发者和运营者的商业秘密,特别是那种的不开源的算法。商业秘密在我们国家是受到非常严格的法律的保护的,不仅仅受到了反不正当竞争法的保护,而且受到了刑法的保护,其中有一项叫做侵犯商业秘密罪的罪行。


因此我们要对算法有相应的保护。然而既然要保护,是不是就是说它不能黑箱公布?当然不是,我们应在一个可控的范围之内,进行相应地披露,来保障我们的相关权益。也有同学提出了算法应该交给管理部门审核,由权力机关来进行审核也是一种解决方案,它能够保证这些相应的算法权益得到有效的保护,这比直接披露或者是第三方的披露会好一点。

接下来是大家争论的一个焦点,就是算法透明就等于披露源代码?我的回答是no,这是一个非常肯定的否定回答。

美国纽约曾经做过一次立法的尝试,它叫做1696法案草案,要求公布任何算法或者其他自动数据处理系统的源代码。这是一次非常大胆的立法尝试,但这次尝试最终以失败告终。科技公司以迫使披露专有信息,损害其竞争优势,进行了强烈的反对。最后立法者妥协说不需要披露源代码,改为披露参数,但最终这部法案在成型之后,取消了所有关于这个算法披露的要求。


当然作为一种法律尝试,它还是有纪念意义的,至少我们可以知道披露源代码是一种算法透明的选择路径,但是为什么这条路径行不通?我总结的有三点原因

  • 源代码是受到法律保护的,源代码本身包含著作权,受到商业秘密相关法律的保护,未经许可是不得公开的。

  • 算法透明其实搭建了一个桥梁,让我们能够接近这个算法,能够去感知算法运行的特点,评估算法运行给我们带来的影响。源代码开放后,更多是一种纯粹的技术性的公开,它无法去解释这套算法的价值考量和利益平衡,也不会增加我们对算法支配者和利用者的理解和信任

  • 直接公开源代码会带来安全的风险,如果直接公开源代码容易暴露系统的漏洞,造成系统被攻击,增大被非法利用或滥用的风险,对公众造成损害。这种所谓的纯粹技术性的公开,不仅不会建立信任,还会带来更大的系统性的风险,所以说披露源代码并非是算法透明的有效途径。


所以说算法透明就是披露源代码的结论是不可以,算法披露不等于公布源代码。


如何解释算法的迭代?


基础结论是要去解释出现价值提升的重大更新。对于算法迭代、算法更新的解释,不仅仅要做技术性的解释,如修补了什么漏洞,还要去解释模式的改变以及算法模式的改变带来的价值提升。


以外卖算法为例子,其中有一个明显冲突:骑手的安全和配送效率。

图左侧可见,函数曲线形状是向下凹的,在m1算法里从v1.0到v1.1版本的一次改进,是从一个低效率、高安全的算法改进到了一个高效率、低安全的算法。说明这个算法牺牲了骑手的安全,来提高配餐的效率,离高效率高安全的目标相去甚远。这样的一次改进并没有带来总体的价值提升,不是社会期待的更新。

图右侧可见,函数曲线形状是往上凸的,然后从v1.1更新到v2.0。这次更新一定程度上降低了效率和安全,但是它兼顾了效率和安全,让v2.0版本既能够保证较高的效率,又能保证较高的安全。这次改进就符合法律所要求的算法取中的重大更新,后续的工作是要向监管、公众、骑手们去解释改进的原因——为什么现在配送的时间变长了?并不是算法变慢了,而是想让骑手变得更加的安全。

从中可以发现算法的改进逻辑:兼顾效率和安全,才是算法取中的最优解。


04算法透明如何实现?专业人士有什么作用?



算法透明的实现路径


算法透明有如下三种实现的路径


  • 根据法律规定和监管的要求,向管理部门进行参数和逻辑的备案。备案也有门槛限制,一般来说具有一定的舆论属性或者社会动员能力的算法才需要报备。备案的内容主要是算法适用范围、胜任能力、影响评估和安全防控的内容。

  • 这种也是最重要的一种,则是自主公开,向公众、向社会、向算法运营者等不同的对象告知,告知内容涉及算法是否客观公正利用数据,是否会对权益造成影响,是否有更正和退出的机制等等。

  • 第三方解释,但此类解释可能不权威、不准确,也会对侵犯算法运营者的合法权益。


算法透明中专业人士的作用


那么为什么需要有专业的人士来进行算法解释呢?

以中医系统和西医系统来举例。中医和西医有着明显的区别,两套医学体系在理论体系、诊断方法、治疗手段、药理判断等方面都有显著差别。中医属于临床医学,通过几千年的医学实践,形成了“理”“法”“方”“药”闭合的环形理论,随着科学发展而不断完善;西方医学则属于实验室医学,有着非常清楚的药理依据,有非常明确的用量限制和副作用披露。


在这样的一种背景下,我们还是会同时尊重和信任这两套体系,核心的原因是在于我们除了信任这两套科学体系之外,我们还信任这两套科学体系中的专业人士。因此,不管是我们的抗疫英雄,还是李时珍这样名医,都可以取得我们十足的信任。

而在算法透明中,我们需要的是跨学科、跨领域的算法解释的专业群体,对算法的技术原理和社会效果进行匹配对齐。这不仅仅要技术人员,也要有公众侧的专业群体共同参与到算法解释中,形成一个权威的、专业的算法解释体系。在现实情况中,确实有很多很好的方案被提出,但往往缺乏一个权威的、专业的算法解释体系,去真正地弥合认知的鸿沟,消除对于算法黑箱的误解。我们要去建立一个弥合算法和公众之间的鸿沟桥梁,让算法变成大家可相信的箱子,成为愿意带在身上去旅行的旅行箱,而不是黑箱。


05总结:一张图解构算法透明




图中算法盒子有很多的组块,包括功能、决策数据、有逻辑。盒子也包含了算法的迭代,从v1到v2到v3。另外,算法外面受到了法益的保护,同时有专业的群体来构建算法透明和算法解释之间的桥梁。算法的每一个组块里又包含了合法性要求以及合理性要求,需要分别面向政府、公众、商户和用户去进行说明和告知,并把他们的反馈意见引入到算法的更新和迭代之中,来保障各个主体的权利。

这张图总结概括了前文的所有内容,包括怎么样去看这个黑箱的这些内容;怎么样向不同的主体进行披露以建立这些主体对于算法的信任和理解;在算法的更新和迭代的过程之中,应该接受外部的反馈、社会的评价以及消费者的建议,让这个算法不仅变得更快,还让它变得更好,更好地服务于每一类主体,满足不同主体对于算法的期待,产生更好的社会效应。




 关注公众号发现更多干货


 PPT原件下载

请添加【AAIG课代表】微信号



产业实践 往期推荐点击标题查看文章

博士毕业后,他在淘宝“扫垃圾”?



阿里AI黑科技成团出道,可防火防伪防疫还能反诈鉴黄与打假……



阿里“塔玑”太逼真:外籍模特不再吃香?



万能的淘宝上买不到什么?



阿里建全球最大奢侈品商标数据库:无偿提供给全球科研团队使用识别假货



AAIG参与发布《人工智能产业担当宣言》



一场猎杀AI的残酷游戏:把枪口对准人工智能,是为了吓退黑暗丛林中的对手



阿里实人认证安全性通过FIDO全球权威认证



多举措提升直播品质 阿里协助警方侦破直播售假案



为AI攻防测能力,清华联合阿里、RealAI发布全新测试基准平台Adversarial Robustness Benchmark



阿里巴巴成立人工智能治理与可持续发展实验室(AAIG)



巡检「局部抄袭」,阿里服饰版权算法入选AAAI 2020



阿里新一代安全架构核心AI技术夺冠,机器阅读理解准确率战胜人工



复工潮的疫情防控多了一双“火眼金睛”——AI防疫师



阿里研发AI技术可识别拦截数十国多语种脏话图



为了对付羊毛党和黑灰产,电商平台的AI大招是这样放的



阿里自研芯片亮相的同时,张勇对外公布了这一计划



治理重构,塑造平台经济的健康生态——《中国平台经济健康指数》报告发布


技术干货 往期推荐点击标题查看文章

AI在茫茫人海中,看到只有你被Deepfake了



给AI系统做“安全体检”,阿里安全提出自动化AI对抗平台CAA | AAAI 2021



给图片打「马赛克」可骗过AI视觉系统,阿里安全新研究入选ICCV 2021



你算个什么鸟?AI十级“找茬”选手诞生



「启发式领域适应」成果入选NIPS2020,新一代算法「鉴黄师」诞生



4项新一代安全架构核心AI技术沉淀的论文被国际会议ICASSP收录



用“算法”模拟光束可攻击自动驾驶车辆,专家呼吁重视AI安全



张钹院士解读AI安全治理三大痛点+信通院AI数据安全治理的七条建议



准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸



只要AI跑得快,色情黑话就追不上我



让 AI 训练 AI:揭秘阿里、浙大的 AI 训练师助手

爱心公益 往期推荐点击标题查看文章

为数十万盲人修建网络盲道:阿里的追光者每天为数亿张图片把脉,帮助盲人“听图”



“绿网计划”对数百亿次非正常搜索进行公益化疏导



半夜,他偷偷在互联网上呼救



被隔离的阿里安全工程师们:11 天造出疫情 AI 防控系

AAIG CUP 往期推荐点击标题查看文章

抱大腿攻击是什么?AAIG CUP暨第三届 Apache Flink 极客挑战赛启动!


更多人工智能治理和可持续发展

技术干货+产业实践分享

点击下方名片关注和星标

【阿里巴巴人工智能治理与可持续发展实验室】

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存