查看原文
其他

设计和构建负责任的 AI | 观点

The following article is from AI前线 Author 冬梅、陈思


丹棱君有话说:昨日,沈向洋博士续聘清华大学双聘教授,并发表了主题为 “如何设计和构建负责任的 AI ” 的报告。


受疫情影响,聘任仪式在线上举行。沈向洋博士在西雅图全球创新学院(GIX)大楼,通过视频连线的形式从清华大学校长邱勇手中接过双聘教授聘书。


在报告中,沈向洋博士分享了 AI 可解释性与 AI 偏见等问题,探讨了如何利用 AI 应对人类社会面临的挑战。人工智能的发展需遵循一定的基本原则,其践行需要产业界、学术界和政府的共同协力。


沈向洋:如何设计和构建负责任的 AI



话题 1:AI 的可解释性

之前,我们谈论的 AI 都是出现在科幻小说或电影里。实际上,AI 现在已经走进我们的日常生活,我们每天都在和 AI 打交道。但是,当这些 AI 应用到医疗、金融等领域中时,我们就需要更加谨慎地看待。


如今,AI 已经可以做决定,这是 AI 过程中非常重要的一步,这就引出了我的第一部分内容:我们缺乏对 AI 所做决定的认知。


我们缺乏对 AI 所做决定的认知


AI 就像一个黑匣子,它们能自己做出决定,但是我们并不清楚其中的缘由。所以,我们目前需要做的就是打开这个“黑匣子”,了解 AI 想表达的意思和可能会做出的决定。这就是我们今天演讲的主题:如何设计和构建负责任的 AI




AI 的发展需要遵循一定的基本原则,包括公正、透明、可信赖 & 安全、隐私 & 安全、适用范围广泛、负责。


我们每次发现新的技术,都会面临同样的问题:如何让技术变得更加可靠、安全和负责任 。


举个例子,当人类在生产电气零部件时,都会有相应的检查记录。一旦哪里出现问题,就可以对操作文件进行复盘,从而找出问题。但是,AI 是不相同的,AI 没有这样的一张检修表,我们往往不知道是哪个环节出现了问题。


构建具有可解释性的 AI




上图是一张模型可解释性的变化图片,横轴代表模型的可解释能力,纵轴表示预测的准确性。从横轴来看,越向右边延伸,我们得到的模型的可解释性越大。从纵轴来看,越向上延伸,系统预测的准确性越高。很多年前,我们就已经使用了这种线性模式,只不过那时并不称之为 AI。


总之,模型是非常复杂的,解释起来十分困难。接下来,我们可以通过例子来证明下为什么这件事情如此复杂。


案例一:提取和比较

我们试图找出更多的数据来检测模型的准确度。2016 年,很多地方都推出了用于预测未来罪犯的软件,法庭在审判时已经开始用 AI 进行辅助判断。越是如此,人们就越会担心算法是否存在偏见,让我们通过一张图表来具体分析:




红色曲线代表从模型提取的情况,绿色曲线代表实际情况。例如,你是如何知道这个人将会再次犯罪呢?那这时来回顾下过去的数据,数据显示这个人有犯罪史,这个人过去犯得罪越多,以后就越有可能犯罪。这一定程度上与第一个图形显示的结果相吻合。




从图上可以看出,美国本土居民犯罪率较高,对应地,重新犯罪比率也更高(红色显示),但实际上绿线显示却与之相反,人们印象中非洲裔美国人很容易犯罪,但实际上也并非如此,也就是说尽管是基于事实进行预测,也存在着一定的偏见,所以在训练这种数据时要格外谨慎。


案例二:局部解释和与模型无关的解释

我们如何透过复杂的模型了解其中的内容呢?一个复杂的模型就像黑匣子一样,我们向里面输入一些东西,就会得到一些东西。我们之所以无法理解模型是因为模型本身就非常复杂,晦涩难懂。




有些人就会认为,这样难懂的模型就不追求整体解释,只需要局部可解释性,那么就会出现下列问题。




正如上图,模型的识别准确率已经可以达到 5/6,但是我仍然不知道我要什么,到底是哈士奇还是狼。如果需要的是一只哈士奇,却把狼带回家,那麻烦就大了。你以为训练了一个非常强大的模型,实际上并非如此,这就是我一直在强调的:模型的可解释性十分重要。


话题 2:AI 的偏见

案例一:对不同肤色的偏见

在任何时候,构建 AI 都离不开数据。需要了解偏见来自哪里,就需要知道数据的来源。在微软、IBM 和 Face ++ 制定的面部识别算法中,黑人女性比白人的面部识别准确率要低。






从上图可以看出,对黑色女性人脸识别的错误率高达了 21.073,很多人表示这是难以接受的。所以,我们对这个模型进行了调整。三个月后,模型改善后得到了如下结果:




可以看出,经过再次训练后的模型,在识别不同肤色人种时准确率明显提高,许多分类错误率已经为 0.000,即便是黑人女性,识别错误率也降低至 1.9008。从不断的训练中,我们得到结论:这种偏见来自于训练采用的样本数据


基于以上问题,我们对微软 500 名机器学习领域工程师进行了调查,我们问他们如何改善机器学习系统?在经过调查后得出结论:如今机器学习工程师面临的最大问题之一是他们知道出了一些问题,但是不知道具体是哪里出了问题,也并不知道为什么会出现问题




当我们训练一个复杂或简单的模型,最终得到的结论是准确率为 73.8%,再深究每个训练的数据集时会发现,不同的肤色和性别,得到的准确率是不一样的。一些结果还比较令人满意,但也有一些结果差强人意。




所以,我们构建了一个系统来进行对比,看到底是哪里出了问题。




传统机器学习系统是低级模式,而现在的模型带有错误可解释性,可以从整体视角,根据数据集不同的特征来判断哪里出现了问题,也可以从集群角度来了解到底为什么会出现这样的问题。基于这种模型,一旦出现问题时你可以复检样本数据集、模型来找出问题症结。


案例二:消除嵌入文本的偏见

我们使用了很多数据进行训练,列出了 27 种职业,包括会计、律师、教师、建筑师等。我们将一段话嵌入进去,然后发现系统识别出其职业为“教师”,但是,如果我们将段落中的某些单词进行修改,只改变很小的一部分 ,从“她”到“他”其他都没有改变,最终识别出的结果就从“教师”变成了“律师”。




这里就涉及到了文字嵌入几何学(如下图所示):




这个几何嵌入有两个属性:Proximity 和 Parallelism。我这里提出苹果和微软,大家就会联想到两家公司的成立者很伟大,都是很大的公司,这就是嵌入的内容。






根据上图可见,如果某个单词更向下邻近 He,则表示为他;如果某个单词更向上,邻近 She,则表示为她。横轴可以看出,单词越向右,就越与性别无关;越向左,越与性别相关,例如妻子和丈夫,爸爸和妈妈。这里还可以看出,很多时候谈及时髦,通常是形容女性,而说起杰出,通常用来形容男性。




那么,现在我们已经知道问题出在了哪里,就可以用上述模型来解决。但是,我们之后就会发现原来“时髦”、“杰出”、“天才”这类词语既可以形容男性,又可以形容女性。


我们已经进入了 AI 时代,我们的生活与 AI 息息相关,我们是接触 AI 的第一代人群,无论喜欢与否都别无选择,但是我们能决定该用何种方式来构建 AI 以及使用 AI。


最后,感谢大家收看!



沈向洋博士是美国国家工程院外籍院士、英国皇家工程院外籍院士、微软公司前执行副总裁、微软亚洲研究院曾任院长兼首席科学家。


沈向洋博士 1996 年获卡内基梅隆大学计算机学院机器人专业博士学位,1996 年加入微软美国研究院,1998 年参与创立微软亚洲研究院,后担任亚洲研究院院长;2007 年任微软全球资深副总裁,领导微软搜索引擎必应的产品研发;2013 年任执行副总裁,主管微软技术与研发部门,并主要负责推动公司中长期总体技术战略、策略以及前瞻性研究与开发工作。他负责管理全球领先的计算机科学研究机构、微软研究院,及其与微软全体工程师团队的整合,同时还负责微软可信计算部门和技术策略部门的管理工作。2017 年 2 月当选美国国家工程院外籍院士,2018 年当选英国皇家工程院外籍院士。


沈向洋博士主要专注于计算机、视觉、图形学、人机交互、统计学习、模式识别和机器人等方向的研究工作。他所设计的四分树样条函数算法是世界上最好的运动参数估计算法之一。他已发表关于计算机视觉、计算机图形学、图形识别、统计学习和机器人科学方面的数百篇论文,拥有超过 50 项美国专利。


沈向洋博士自 2005 年起就曾受聘担任清华大学高等研究院的双聘教授,此次为续聘仪式。在过去的任期内,他带他带领博士生完成了一系列高水平的研究工作,并在计算机图形学和计算机视觉的国际知名会议和期刊上发表了许多顶级论文。沈向洋博士对计算机和人工智能领域的发展的贡献,得到了业界和学术界的普遍公认和推崇。




微博、Bilibili清华大学官方账号可看回放



了解更多:





后台入驻微软小冰

如果你很萌,请跟她一决高下!





    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存