查看原文
其他

算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则(上)


不同人眼里的算法黑箱究竟都是什么?面对不同对象的不同需求,如何构建更为合理的算法透明规则?为何算法透明是算法治理的核心要求?


《追AI的人》第2期直播《算法“黑箱”与算法透明》中,阿里研究院数据经济研究中心副主任、高级研究专家傅宏宇做客现场,用两小时畅聊“算法透明”。


下面将用万字干货完整讲述算法黑箱,因篇幅过长,分为上下两篇,本文为上篇,共计4402字。


🔻点击查看直播信息:打通外卖骑手算法的任督二脉:《追AI的人》直播第2期


傅宏宇

阿里研究院数据经济研究中心副主任、高级研究专家。北大生物、经济学士、法学硕士,美国法学博士。豆瓣男神,曾任两部电影男主角。




框架要点


一、算法黑箱是什么?配送算法黑箱之谜如何解开?·  技术中立,但技术的效果不中立·  算法黑箱是什么?·  骑手如何被“困”在配送算法中?·  外卖场景下不同主体对算法的要求二、算法透明需满足不同对象的哪些需求?·  面向政府的算法透明规则·  面向公众的透明规则·  知情、客观:竞价排名告知·  Google PageRank 事件:开放不等于透明


01
算法黑箱是什么?配送算法黑箱之谜如何解开?



技术中立,但技术的效果不中立


算法黑箱是什么?从配送算法的角度讲,我们如何结构这样的黑箱?

这是100年前福特公司第一次用流水线量产汽车,它叫t型——是福特的第一辆汽车。电影《极速传奇》讲述的是福特公司用Mt40这款车在乐芒24小时拉力赛上对飙法拉利,最后战胜法拉利的传奇故事。


汽车是人类科技的结晶,主要的功能是把人从一个地方便捷高效地运送到另外一个地方。从福特的t型车到 Mt40型车,我们可以发现汽车技术更迭的方向是变得更快,提高汽车的行驶速度才能在竞争中脱颖而出。

现在这种情形发生了转变,福特生产的福特蒙迪欧属于插电式的混合动力车,汽车技术已经不再仅仅追求快,更多的是去实现环保以及可持续发展的目标。

这里引出了技术上的一个困境——科林格里奇困境。技术本身是没有一个既定的发展方向的,在一个技术诞生的初期,我们并不能够完全地去预测这项技术在未来的发展方向,就像t型车刚出来的时候,我们并不知道最终会往环保节能的方向发展。

另外,如果一个技术得到了广泛的应用,那么就会变得难以控制,如汽车的广泛应用带来的交通拥堵、空气污染等问题。

因此技术虽然是中立的,但技术的效果并不中立。探讨一个技术本身的时候,它是不用承担责任的,但是当这个技术逐渐扩展应用而产生大量社会效果时,我们就需要去控制技术给带来的影响。

算法黑箱是什么


AI的技术也同样如此。弗兰克·帕斯奎尔的《黑箱社会》描述了算法支配下的社会处在黑箱之中,人们不知道算法会给他们的生活带来什么样的影响。


从中可知,黑箱是算法的技术社会化运用之后带来的,如同汽车广泛应用后带来的一系列社会问题。这种社会问题由于无法被很好的解释,又有其产生的社会效应,使我们对它产生了的畏惧感甚至是抵触情绪。

是算法技术的什么特点造成了黑箱感知?


  • 有效的学习算法模型包含海量的数据和大量的代码,用户使用会将相应数据传到云端,算法的设计者利用这些数据去训练算法,不断的去迭代,产生了一个算法的结果。这是一个静态的描述。
  • 除了人工地让算法进行改进优化之外,它自己也能够去学习和更新,这就是机器学习的概念。
  • 另外,在当今这个海量的数据被收集利用、算法高速迭代的大背景下,算法的设计者和运营者也很难去说明算法决策过程,以及它对应的决策结果。


这就是人工智能技术目前特点的简单概括。当这样一个技术被社会化的时候,它会出现四种后果:


  • 它是会产生一种反常识、难理解的后果。这主要是因为算法计算依赖的是统计规律,而不是因果规律。
    什么叫统计规律?什么叫因果规律?举一个例子,比如说怎么证明我是小明,身份证号和我的身份是唯一对应的,因为我有唯一的身份证号,所以说我是小明。这是一个因果的关系。
    但是统计规律不同,它是对大量偶发事件整体起作用的推论。算法也许知道小明住在a点,工作地在b点,小明每天9:00需要去上班,每天18:00下班,小明从a点到b点每天有5公里,他会准时的从8:30出门,然后骑上一个车,然后到达b点,然后回来之后他从b点再骑一个车回到a点。
    当算法知道这些数据的时候,它就从背后刻画出一个小明的形象,这是算法所看到的小明。它不需要知道小明的身份证号,不需要知道小明的身高体重和其他特征值,仅通过统计的规律就可以推断这种行为模式背后的人,很有可能是小明。因此可以说,算法知道的小明和我们所认为算法了解的小明是完全不一样的。
  • 在机器学习的背景下,外行甚至内行对算法的复杂性难以去理解和解释。算法本身的技术性的特点决定了它很难被理解。
  • 算法会对个体产生一种失控感。当我们被算法所决定时,都会产生自己并不知道是怎么样被决定的感觉,可把它总结为“三无”感觉:对算法的过程无法驾驭,对算法的结果无法避免,对算法的影响无法控制。
    举个例子,我最近换手机,重装了新闻类APP,然后新闻类APP直到今天还在给我郎平选周婷成为中国女排队长的消息。要知道中国女排在东京奥运会的表演已经结束了,这个著名APP仍旧每天同一时间推送这条消息。
    郎平、中国女排确实是我关注的内容,APP推送这条消息让我重新成为这个APP的用户。但是它是怎样识别到我对这种信息的关注的?它怎么了解到我会在每天这个时段来关注信息?所以说这样的结果用户是没办法去驾驭的,这使得用户在面对算法时,都会有一种深深的失控感。
  • 算法本身具有巨大的支配能力,当缺乏有效的监督的时候算法会被滥用,对国家、对社会、对民众的安全带来严重风险。在算法的支配下,我们的生活变得越来越快,但不一定变得越来越好,同时还伴随着诸多偏见、歧视等不公平对待。



因此算法本来是一个很难解释的箱子,也许它不一定是黑箱而是白色的箱子,但是由于它对个人心理上的压制力以及对社会的支配力,算法就被冠以了黑箱之名。

总结来说,算法因为难以看清,并且具有了对社会和个人的支配能力,形成了人们眼中的算法黑箱。


骑手如何被“困”在配送算法中?


在配送调度算法中,用户先在APP上下达下单指令,指令传递给算法,算法把指令拆分为两项,一项向商户下达配餐指令,一项向待命骑手下达取餐指令。骑士接到取餐指令后,骑手需要进入到商户的楼宇,通过高德等地图软件提供数据前去取餐。取餐之后,又地图等数据支持下,继续把餐品配送到用户手边。


除相应主体外,数据也在支撑着算法体系。这些数据由用户、商户、骑手等不同主体共同提供,根据这些数据,算法会在用户点餐之前就做出一个预估,估算出用户可见的配送时间。


外卖场景下不同主体对算法的要求


在整个调度算法的利用场景里边,不同的主体对于算法的要求是不同的。


用户对于算法的期待是:配餐是卫生的,点餐和送餐的过程是便捷的,外卖的配送是准时的,餐品是美味的等。

商户对于算法的期待是:算法能提前告知这个时段的备货量,告知如何提高出餐效率,提示几单可同时一锅炒出来,指导如何保证菜品质量等。

骑手对于算法的期待是:避免取餐时的交通风险,保障人身安全,就近、公平、合理地派单,匹配最优化的配送路线等。

因此算法有很大的算力需求,需要在短时间内协调这么多的资源,满足这么多不同主体的期待。同时需要调取大量数据,除了这几个主体本身的数据之外,还要接入第三方的数据库,比如说天气大数据系统,判定在配餐过程中是否有天气的异常情况会影响到配餐,是否可能会有安全问题发生。

除此之外,还会有政府和社会对于配送算法的期待:

算法不能太过严苛,要保护和保障劳动者;要提高快递员和骑手的收入,照顾到灵活用工群体的收入需求;保护各方主体的隐私安全,避免隐私信息泄露;关注配餐对于交通秩序的影响,避免配送过程造成的交通事故;另外,国家也会高度关注算法是否带来公共安全的隐患问题。

在一个看似简单的外卖场景下,存在着诸多主体,他们对这个算法都提出了非常严格的要求。所以说,算法在黑箱里面其实也是在瑟瑟发抖。我们需要研发送得更准的算法,在遵守法律要求的前提下,尽可能地兼顾到每一方的利益,实现对多重主体、多种目标的优化,这对于算法来说也是一个非常高的要求,也是算法治理的重点、难点。

算法透明是实现算法目标的要求


因为这样的高要求,就需要让算法透明。算法透明的目标是理解,是信任,而不是让用户去看源代码。


  • 算法是一种充分调动、分配社会资源的手段。没有及时配送的调度算法时,外卖是一种不可能的工作——如何在短时间内规划这么多单的配送路线呢?同时算法具有复杂的社会面向,在不同的场景下,算法服务于不同主体有不同的要求,所以说算法透明在某种意义是为了帮助不同主体明确其合理要求是否被考虑。
  • 算法服务于人,是具备价值观的。算法本身是一个工具,本身是中立的,但要让技术服务于社会,就要让算法像人一样去思考,有人一样的感知、有人一样的温度,让它的价值目标符合我们的价值目标。而价值目标的来源不是由程序员和企业决定的,而是来自于法律确定的、社会认可的、大众接受的一套价值观。所以说算法透明的目的之一,就是要让不同主体理解算法的设计、部署和利用,了解它到底服务于什么样的价值。
  • 算法不仅要单向度的去追求效率,还应追求多元的价值需求,其中最困难的是在价值冲突的时候做出正确的判断。所以算法透明的一个重点是向感觉自身利益受到损害的主体,说明算法的判断标准和决策依据。


综合来看,算法透明强调对于作为技术的算法其效果应该是透明的,算法透明可以帮助人们理解算法是如何做出决定的,在这个过程中是否嵌入了正确的价值目标和伦理考量,以及当人们觉得算法的结果有问题时,向他们进行充分的解释和说明,而一旦算法做出了错误的结论,要保证有一种更正、退出的机制。


02
算法透明需要满足不同对象的哪些需求?


面向政府的算法透明规则


对于国家来说,它关注的是这个算法会不会威胁国家的安全,会不会影响社会的秩序,会不会影响公共的利益。


公众则是对算法公平,信息的充分性和高自由度有更高的期待,这在搜索类算法里有明显的体现。而对于影响用户决策的算法——自动化决策,用户会期待对于隐私的保护,同时期待拥有自主决定的权利,拥有拒绝和退出的的机制。

商户期待平台的算法能够平等对待每一个商户,公平地提供机会,同时能够有效解决商户、用户和平台之间的争议。

面向公众的透明规则


面向公众的算法主要是一些信息检索类算法,这类算法应该具备这些条件:


  • 公众要有知情权,要能够理解这个算法运行的基础逻辑。
  • 算法的结果应该是客观的、公正的,比如说用户看到的内容推荐应该是客观公正的。
  • 它的功能是明确的,用户可以明确算法透出的到底是哪一类的信息,它是一个中立的客观信息还是广告类的商务信息。算法要提示这类信息的相应影响,并且及时给到公众反馈。


知情、客观:竞价排名告知


关于搜索信息做自然搜索结果和付费搜索信息的明确分类,有一个真实案例:


魏则西同学以高分考入西安电子科技大学,而后却被诊断为患有一种非常罕见的癌症。诊断后,他的父母在一个主流的搜索引擎上搜索到了一个叫做武警二院的医院,并将魏则西同学送到了该医院进行治疗。该医院在治疗过程中使用了未获得国家批准和认可的技术,最后导致魏则西病情恶化,离开人世。

在当事人最后的总结和反思中,他不知道这个搜索结果是一个商业的目标,他信任了搜索的结果和排名,基于这样的信任去找到了这家医院,最后得到的却是一次并不合法的治疗。

此后,我们才要求互联网的搜索结果要醒目地区分自然搜索和付费搜索,要让我们知道搜索结果背后的利益到底是什么,一定让公众知情,给予公众一种客观的判断。

Google PageRank 事件:开放不等于透明


无独有偶的是另一个国际的搜索引擎也有类似事件。


谷歌的搜索引擎曾经试用过一个叫做page rank的算法那么page rank是什么意思?当我在搜索某一个领域的时候,page rank会对领域内的这些网站进行排名,它主要的逻辑是看这个网站链接的节点数量,然后通过它链接的节点数量来反推这个网站的排名,可以说这是非常客观的一个算法。

但是非常遗憾的是这个算法被人滥用。有人会建立一些关键字来反复搜索、反复建链接,从而利用page rank算法来提高排名,通过售卖网站来获利。

page rank是一个开放的算法,大家都知道它的算法逻辑,因此它才会被滥用。而后谷歌还因此遭受到了诉讼,有些滥用的公司还来起诉谷歌,谷歌影响到了其对算法的利用。

这就是透明带来的危害,透明本身是存在被滥用的风险的。所以算法的开放并不等于算法的透明,我们需要搜索算法的透明是为了更加公平和合理的结果,而这不是开放算法能解决的。



 下篇获取请关注公众号



 PPT原件下载

请添加【AAIG课代表】微信号




产业实践 往期推荐点击标题查看文章

博士毕业后,他在淘宝“扫垃圾”?



阿里AI黑科技成团出道,可防火防伪防疫还能反诈鉴黄与打假……



阿里“塔玑”太逼真:外籍模特不再吃香?



万能的淘宝上买不到什么?



阿里建全球最大奢侈品商标数据库:无偿提供给全球科研团队使用识别假货



AAIG参与发布《人工智能产业担当宣言》



一场猎杀AI的残酷游戏:把枪口对准人工智能,是为了吓退黑暗丛林中的对手



阿里实人认证安全性通过FIDO全球权威认证



多举措提升直播品质 阿里协助警方侦破直播售假案



为AI攻防测能力,清华联合阿里、RealAI发布全新测试基准平台Adversarial Robustness Benchmark



阿里巴巴成立人工智能治理与可持续发展实验室(AAIG)



巡检「局部抄袭」,阿里服饰版权算法入选AAAI 2020



阿里新一代安全架构核心AI技术夺冠,机器阅读理解准确率战胜人工



复工潮的疫情防控多了一双“火眼金睛”——AI防疫师



阿里研发AI技术可识别拦截数十国多语种脏话图



为了对付羊毛党和黑灰产,电商平台的AI大招是这样放的



阿里自研芯片亮相的同时,张勇对外公布了这一计划



治理重构,塑造平台经济的健康生态——《中国平台经济健康指数》报告发布


技术干货 往期推荐点击标题查看文章

AI在茫茫人海中,看到只有你被Deepfake了



给AI系统做“安全体检”,阿里安全提出自动化AI对抗平台CAA | AAAI 2021



给图片打「马赛克」可骗过AI视觉系统,阿里安全新研究入选ICCV 2021



你算个什么鸟?AI十级“找茬”选手诞生



「启发式领域适应」成果入选NIPS2020,新一代算法「鉴黄师」诞生



4项新一代安全架构核心AI技术沉淀的论文被国际会议ICASSP收录



用“算法”模拟光束可攻击自动驾驶车辆,专家呼吁重视AI安全



张钹院士解读AI安全治理三大痛点+信通院AI数据安全治理的七条建议



准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸



只要AI跑得快,色情黑话就追不上我



让 AI 训练 AI:揭秘阿里、浙大的 AI 训练师助手

爱心公益 往期推荐点击标题查看文章

为数十万盲人修建网络盲道:阿里的追光者每天为数亿张图片把脉,帮助盲人“听图”



“绿网计划”对数百亿次非正常搜索进行公益化疏导



半夜,他偷偷在互联网上呼救



被隔离的阿里安全工程师们:11 天造出疫情 AI 防控系

AAIG CUP 往期推荐点击标题查看文章

抱大腿攻击是什么?AAIG CUP暨第三届 Apache Flink 极客挑战赛启动!


更多人工智能治理和可持续发展

技术干货+产业实践分享

点击下方名片关注和星标

【阿里巴巴人工智能治理与可持续发展实验室】

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存