算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则(上)
《追AI的人》第2期直播《算法“黑箱”与算法透明》中,阿里研究院数据经济研究中心副主任、高级研究专家傅宏宇做客现场,用两小时畅聊“算法透明”。
下面将用万字干货完整讲述算法黑箱,因篇幅过长,分为上下两篇,本文为上篇,共计4402字。
🔻点击查看直播信息:打通外卖骑手算法的任督二脉:《追AI的人》直播第2期
傅宏宇
阿里研究院数据经济研究中心副主任、高级研究专家。北大生物、经济学士、法学硕士,美国法学博士。豆瓣男神,曾任两部电影男主角。
框架要点
算法黑箱是什么?配送算法黑箱之谜如何解开?
技术中立,但技术的效果不中立
算法黑箱是什么
有效的学习算法模型包含海量的数据和大量的代码,用户使用会将相应数据传到云端,算法的设计者利用这些数据去训练算法,不断的去迭代,产生了一个算法的结果。这是一个静态的描述。 除了人工地让算法进行改进优化之外,它自己也能够去学习和更新,这就是机器学习的概念。 另外,在当今这个海量的数据被收集利用、算法高速迭代的大背景下,算法的设计者和运营者也很难去说明算法决策过程,以及它对应的决策结果。
这就是人工智能技术目前特点的简单概括。当这样一个技术被社会化的时候,它会出现四种后果:
它是会产生一种反常识、难理解的后果。这主要是因为算法计算依赖的是统计规律,而不是因果规律。 什么叫统计规律?什么叫因果规律?举一个例子,比如说怎么证明我是小明,身份证号和我的身份是唯一对应的,因为我有唯一的身份证号,所以说我是小明。这是一个因果的关系。 但是统计规律不同,它是对大量偶发事件整体起作用的推论。算法也许知道小明住在a点,工作地在b点,小明每天9:00需要去上班,每天18:00下班,小明从a点到b点每天有5公里,他会准时的从8:30出门,然后骑上一个车,然后到达b点,然后回来之后他从b点再骑一个车回到a点。 当算法知道这些数据的时候,它就从背后刻画出一个小明的形象,这是算法所看到的小明。它不需要知道小明的身份证号,不需要知道小明的身高体重和其他特征值,仅通过统计的规律就可以推断这种行为模式背后的人,很有可能是小明。因此可以说,算法知道的小明和我们所认为算法了解的小明是完全不一样的。 在机器学习的背景下,外行甚至内行对算法的复杂性难以去理解和解释。算法本身的技术性的特点决定了它很难被理解。 算法会对个体产生一种失控感。当我们被算法所决定时,都会产生自己并不知道是怎么样被决定的感觉,可把它总结为“三无”感觉:对算法的过程无法驾驭,对算法的结果无法避免,对算法的影响无法控制。 举个例子,我最近换手机,重装了新闻类APP,然后新闻类APP直到今天还在给我郎平选周婷成为中国女排队长的消息。要知道中国女排在东京奥运会的表演已经结束了,这个著名APP仍旧每天同一时间推送这条消息。 郎平、中国女排确实是我关注的内容,APP推送这条消息让我重新成为这个APP的用户。但是它是怎样识别到我对这种信息的关注的?它怎么了解到我会在每天这个时段来关注信息?所以说这样的结果用户是没办法去驾驭的,这使得用户在面对算法时,都会有一种深深的失控感。 算法本身具有巨大的支配能力,当缺乏有效的监督的时候算法会被滥用,对国家、对社会、对民众的安全带来严重风险。在算法的支配下,我们的生活变得越来越快,但不一定变得越来越好,同时还伴随着诸多偏见、歧视等不公平对待。
骑手如何被“困”在配送算法中?
外卖场景下不同主体对算法的要求
算法透明是实现算法目标的要求
算法是一种充分调动、分配社会资源的手段。没有及时配送的调度算法时,外卖是一种不可能的工作——如何在短时间内规划这么多单的配送路线呢?同时算法具有复杂的社会面向,在不同的场景下,算法服务于不同主体有不同的要求,所以说算法透明在某种意义是为了帮助不同主体明确其合理要求是否被考虑。 算法服务于人,是具备价值观的。算法本身是一个工具,本身是中立的,但要让技术服务于社会,就要让算法像人一样去思考,有人一样的感知、有人一样的温度,让它的价值目标符合我们的价值目标。而价值目标的来源不是由程序员和企业决定的,而是来自于法律确定的、社会认可的、大众接受的一套价值观。所以说算法透明的目的之一,就是要让不同主体理解算法的设计、部署和利用,了解它到底服务于什么样的价值。 算法不仅要单向度的去追求效率,还应追求多元的价值需求,其中最困难的是在价值冲突的时候做出正确的判断。所以算法透明的一个重点是向感觉自身利益受到损害的主体,说明算法的判断标准和决策依据。
综合来看,算法透明强调对于作为技术的算法其效果应该是透明的,算法透明可以帮助人们理解算法是如何做出决定的,在这个过程中是否嵌入了正确的价值目标和伦理考量,以及当人们觉得算法的结果有问题时,向他们进行充分的解释和说明,而一旦算法做出了错误的结论,要保证有一种更正、退出的机制。
算法透明需要满足不同对象的哪些需求?
面向政府的算法透明规则
面向公众的透明规则
公众要有知情权,要能够理解这个算法运行的基础逻辑。 算法的结果应该是客观的、公正的,比如说用户看到的内容推荐应该是客观公正的。 它的功能是明确的,用户可以明确算法透出的到底是哪一类的信息,它是一个中立的客观信息还是广告类的商务信息。算法要提示这类信息的相应影响,并且及时给到公众反馈。
知情、客观:竞价排名告知
Google PageRank 事件:开放不等于透明
下篇获取请关注公众号
PPT原件下载
请添加【AAIG课代表】微信号
阿里AI黑科技成团出道,可防火防伪防疫还能反诈鉴黄与打假……
阿里建全球最大奢侈品商标数据库:无偿提供给全球科研团队使用识别假货
一场猎杀AI的残酷游戏:把枪口对准人工智能,是为了吓退黑暗丛林中的对手
为AI攻防测能力,清华联合阿里、RealAI发布全新测试基准平台Adversarial Robustness Benchmark
阿里新一代安全架构核心AI技术夺冠,机器阅读理解准确率战胜人工
治理重构,塑造平台经济的健康生态——《中国平台经济健康指数》报告发布
给AI系统做“安全体检”,阿里安全提出自动化AI对抗平台CAA | AAAI 2021
给图片打「马赛克」可骗过AI视觉系统,阿里安全新研究入选ICCV 2021
「启发式领域适应」成果入选NIPS2020,新一代算法「鉴黄师」诞生
4项新一代安全架构核心AI技术沉淀的论文被国际会议ICASSP收录
张钹院士解读AI安全治理三大痛点+信通院AI数据安全治理的七条建议
准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸
为数十万盲人修建网络盲道:阿里的追光者每天为数亿张图片把脉,帮助盲人“听图”
抱大腿攻击是什么?AAIG CUP暨第三届 Apache Flink 极客挑战赛启动!
更多人工智能治理和可持续发展
技术干货+产业实践分享
点击下方名片关注和星标
【阿里巴巴人工智能治理与可持续发展实验室】