【干货】张佐：面向可持续创新的大数据伦理

其他

【干货】张佐：面向可持续创新的大数据伦理

2017-03-15 数据派THU

本文长度为5000字，建议阅读10分钟

本讲座选自清华大学党委宣传部部长兼新闻中心主任、清华大学信息学院党工组长兼常务副院长张佐研究员于2015年12月22日在RONG系列---大数据与可持续发展论坛上所做的题为《面向可持续创新的大数据伦理》的演讲。

演讲全文：

大家好！刚才主持人介绍我的学术背景主要在信息领域，具体来讲是从企业生产调度到计算机网络集成，以及到现在主要面向城市交通问题做各种各样信息化、智能化的研究和应用。

我今天要讲的题目实际上有一个学校教育教学改革的大背景。从2013年开始我们就在探讨，清华要培养什么样的人。经过一年多的教育讨论会，学校教改文件提出了价值塑造、能力培养、知识传授“三位一体”的培养目标，希望毕业生在三个方面都得到提升。

对于信息学院的研究生，在价值塑造方面，除了通用的为人修养，还需要结合学生们未来要从事的职业、专业——主要是信息科技、信息产业——进行培养，让学生们在进入这个行业之前，能够意识到他所承担的社会责任。

作为一个专门的科技人才，特别是大数据的创新人才，怎么面对未来工作中的选择，包括技术方案的选择，包括将新的应用进行市场化时的策略选择等等。我本身不是做伦理学研究的，而是从事信息相关研究，可以勉强说是研究大数据应用的。两年前研究生院让我开设《数据伦理》课程。经过一年多准备，2015年春季学期我在清华正式开设这门1学分的新课程。

今天的报告主要还是结合我在《数据伦理》这个领域里的思考、学习体会以及部分的实践经验，或者更准确地说，包括我课堂和研究所的学生们的相关实践经验。我的报告核心观点有几条：

第一，信息技术具有强大的社会变革力，现在往往用“颠覆性”（disruptive）来形容信息技术。

第二，当前大数据应用竞相迸发，因为有冲破部门行业藩篱和产生跨界价值的威力。

第三，网络空间与现实生活已经深度交织交错。一方面我们能够通过网络，特别是智能手机这一载体获取信息、处理业务。

另一方面，网络已经成为很多人认知过程、价值判断的依据，潜移默化地影响着我们个人的思维方式。

第四，目前社会生活中的一些伦理原则，像自由、平等、公正、安全等等，实际上已经在网络空间存在。

最后，面对大数据应用在身份、隐私、权利、公共治理责任等方面遇到的伦理困境，敏锐思考进行伦理推理的原则和决策方法，从而帮助创新创业者做出合法且合情合理的行为，对志在创造更繁荣、更有趣、更持久的大数据新生活的科技人员而言，意义是非常重大的。

以上观点能让大家体会到，一方面，我对大数据应用发展方向是持积极和肯定的态度的；另一方面，想就这个报告告诉大家，在这个工作中还是要注意一些边界、底线，或许这样，你才可以看得更远、走得更长久。

信息技术的特点有四个方面：

1，强大的连接能力。形成了全时空、可追溯、可预测的互联互通的网络。

2，很好的交互能力。在信息学院不同院系，研究各种各样的交互技术，比如语音、视觉、手势、情感以及自然语言交互。

3，渗透特性。我们可以把嵌入式设备戴在手上，穿进鞋子里。

4，融合能力。因为大部分的信息可以数字化，在一个终端设备上，不同源头的数据就可以匹配、关联，产生融合的信息新价值。

信息技术是社会进步的加速器，对社会生产发挥了巨大影响，也创造了社会生活新方式，但是同时也引发了社会的新问题。

我认为，研究社会科学的人士有了新机遇。

第一个方面，信息安全加网络安全的风险可能会扩大、影响到人们社会生活的安全。进入现代化的社会本身已成为高风险社会，信息网络又把这个风险变得更大、更集中。

第二个方面，由于信息技术的迅猛发展和不平衡发展造成的数字鸿沟，可能会进一步扩大区域、代际、贫富差距，进而影响到社会公平和正义。第三个方面，通过社交网络能做的很多事情，正在挑战社会结构、社会秩序、社会控制等方面的理论和实践。

来回顾信息和计算机伦理历史。在计算机刚刚出现的时候，信息伦理、计算机伦理就被大科学家、控制论的创始人罗伯特·维纳提出来了。

1950年，他出版了《人有人的用处》，率先提出信息与计算伦理问题，追问信息技术对诸如生命、健康、快乐、能力等等人类核心价值的意义，并采用“伟大的公正原则”作为信息伦理最基础的东西。

二十世纪六十年代到九十年代之间，围绕计算机伦理在做研究的组织提出一些行为规范。

这段时间涉及的主题，一是人际关系虚拟化。人是不是可以依赖网络生活，是不是可以不用在生活中进行面对面真实的社交。

二是正当的网络行为。违法的不在此范围，举个典型例子是虚拟性行为而不是真实社会中的性交易、性行为，能不能追责？

如果一个人做了这个事，自己没有主动暴露，但是被平台运营商暴露了，这个责任应该谁来负？此外，还有平等与公正、知识产权争议、全球化信息交互与治理的困境等信息伦理主题。

2015年初，我才注意到“百度天眼”这个产品，心头一震。我猜想它发布的信息不是完全实时，肯定是有延迟。但是好像足够用了，因为线路是可以预计的、正确的航班时间是可以用来反演和预测的。这张图是我们组的一位教授两年前做的，利用手机数据观察公众出行分布，研究出行行为。

我知道很多人在做类似研究，如城市热点、城市活力。如果科学家们早一点有这个意识、或者更不如说有这个能力把这样的研究成果让政府部门了解、采用，跟一些关键时间点的大型活动结合起来，有可能发挥极大价值、甚至挽救生命！

上面几张图是去年12月31号上海外滩踩踏惨剧后，我在网上看到被贴出来的地铁站点人流数量、热力图等。我们科学工作者是不是可以做一些工作？政府部门是不是可以更加主动做一些新技术革新？

因此，我相信，如果我们积极地、认真妥善地去做大数据创新，是可以带来很多的社会价值的。

与前面提到信息伦理五个主题不同，大数据时代面临四方面新的伦理问题。一，身份困境。二，隐私边界。三，数据权利。四，用大数据做公共治理所带来的问题。这是我个人的总结，还没有跟很多人交流，欢迎讨论。

第一个数据伦理问题，数字身份困境。

互联网应用发展初期，一个人可以在网上注册不同身份，可以经常改变。因此，数字身份最大特点是允许匿名或者假名。这样，既使后台数据暴露了，也不容易让人一目了然知道哪个号码就是真实生活中的我。

有这样一层隔离，网民有一定安全感。但是，数字身份同时存在易被盗用、易被追溯的特点，这与信息系统构建技术相关。关于数字身份困境最近一个例子是12306网站验证码。11月底进入春运购票，好多人吐槽二种物品、八张低分辨率图片的验证码难以被真人辨认。

我有经历：看不清楚图片到底是什么，还有一些物品名词不明白说的是什么。错了再来，失去抢票先机，很烦、抱怨。后来，铁路总公司有个解释，这么设置是为了防自动抢票的软件，增加计算机做图象识别的难度。

也就是说，这项技术防的是小部分人，出台前没有正式解释，至少实施的前几天把很多购票者惹毛了。

这个案例也可以归结到网络空间治理一个著名的争论：匿名还是实名？我看到的资料里，我国大概从2012年左右就开始在新浪微博等应用上陆续采用了后台须实名的制度。

2007年，韩国开始实施实名制，因为有一些惨剧发生，包括不堪网络谣言经匿名迅速扩散而导致当事人自杀。但是在美国一直没有实行实名制。

到底该不该实名？实名肯定利于自我约束、便于管控，我自己从不同的角度对实名的利与弊都做了一些分析。包括用户的角度、网络服务运营商的角度、政府的角度、他人的角度、法律伦理学者的角度。

当然从法律和伦理学者的角度，还是希望能够利于发扬他律与自律共治的道德作用，维护正当的合法性与必要性的原则。有篇论文认为严格的网络实名制，可能是以不信任为获得信任的前提，以限制自由来保护自由，以正价值信息全面否定负价值信息，以用户个体的潜在风险换取网络空间的安全。这方面的争论可能还会持续很久。

2012年左右韩国不再实施实名制。我希望经过一段时间治理，网民能提高素养，法律更加健全，网络行为更多自律和他律的结合。

数据伦理第二个问题是隐私。

先来看看大数据时代的隐私是怎么暴露的。现在有很多技术和非技术手段可以获取人们在网络上、在生活中留下的各种数字足迹。我在表格中列出一些数据采集手段，比如收集公开数据、公开收集数据、日志文件、隐藏式收集，或者是攻击、破解，买卖，关联和推断。

有两件事需要关注, 首先就是用户知不知道、能不能知道你在做用户数据采集。其次，如果要做用户数据采集，你给用户的选择方式是Opt-Out还是Opt-In。如果是Opt-In，你需要在潜在用户成为用户前明确告诉他我要采集哪些用户数据、可能怎么用，潜在用户则要明确选择加入还是不加入你的平台、成为你的用户。

Opt-Out则先默认只要是我的用户就要被采集数据，用户想不被采集个人数据，需要走很复杂的流程。

但是隐私的含义会发生变化。从法律上来讲，一位美国学者最早在1890年左右提出了隐私权。看看这个例子，在1988年和2011年，在美国这个隐私保护比较健全的国度，先后两次通过不同的关于视频隐私保护法案。

具体两个案例。一个在88年，被提名大法官的Robort Bork租借录像带的记录被曝光了，使他的社会声誉受到影响。但是也有人认为这是他的个人隐私受到侵袭。到2011年，国会就一再被Netflix这样的企业游说，要求允许视频分享应用。

他们说，世界变了，“网络一代”更愿意分享个人行踪和喜怒哀乐，所以视频阅览记录可以不作为隐私权利受到保护。国会通过了修正案，在获得了用户明确书面同意以后，网站可以提供分享服务。

数据库有很强的记忆能力、大数据具有很强的预测推断能力，这导致了关于隐私伦理之辩论。一个典型的例子是大数据时代怎么保护删除权或者是遗忘权。

我读到过一个美国姑娘的案例。她中学时曾在网络社交媒体上发布过一些“颓废”的照片，当她大学毕业时应聘中学老师时，该校因在社交网络上有这些照片即断定她不符合教师规范而作出拒聘决定。

她起诉这所学校，理由是过去的她和现在完全不同，社交网络应该保护“数据遗忘权”，因为人都是有成长过程的。一篇文章提到认为大数据预测技术存在四方面伦理困境：由结果预判挑战自由，隐私披露挑战尊严，信息垄断挑战公平，固化标签挑战正义。

数据权利是第三个数据伦理问题。

大数据是一种新的资源，具有被拥有和控制权，能够用货币来衡量，能够为他带来经济效益的资产属性。

大数据还有一些特别的属性;

第一，大数据在权属上存在模糊地带；

第二，大数据的货币价值与真实性、可信性、完整性、可用性等数据质量密切相关。同样是一个数据，假的、错的、故意隐藏的，价值不大；

第三，大数据具有突出的关联价值。第四，数据是非消耗的，它的价值不随使用次数的增多而减损。

对于网络上大量由用户生成的内容（UGC）,目前还缺乏清晰的所有权使用权定义，缺乏明确的数据授权、让渡机制、数据审计权、分红权。在大数据的使用中，可以区分相对的弱势和强势。

看这张表，大数据应用技术掌握上，数据鸿沟的两岸、个人和企业间、小微创业者和诸如BAT这样的网络巨头之间，都存在强弱之分，因而造成数据权利方面的抗争和失衡。当然，这里面不仅需要依赖市场机制调节，还需要社会管理机制来调节和守护公正性。

关于数据权利，我主张和积极看好从共享走向开放。政府应该带头，率先建设并维护高质量的公共数据并向公众开放。公众既包括个人，也包括创业者。数据共享、数据公开和数据开放，在访问模式、数据要求和权利约定方式上都有所不同。

最后一个数据伦理问题是大数据公共治理伦理。以征信为例。2015年8月底，国务院出台了《促进大数据发展行动纲要》，提到要建设大数据征信体系。实际上，中国人民银行从2004年就开始建征信体系，现在又有基于支付宝体系的芝麻信用。

今天没有时间展开，有兴趣的听众可以自己找资料去思考。提几个问题：这些征信系统所采用的数据是不是有偏？评下来的结果是不是管用？数据获取和使用是否得到用户授权、是否正当？

对于将大数据技术用于公共治理，我认为最重要的是要坚守“信息惠民”的价值。“惠民”体现在三个方面：方便、安全、和谐美好。因此，要求政府在将大数据用于公共服务时，提前就把安全防控、规范约束做得更到位、更有效。

在谈了问题之后，再说说我们该怎么去做。大数据伦理责任，除了具有伦理责任的一般特征外，还有自律性、广泛性、实践性的特点。对于正在从事或即将投身于大数据创新的科技人员来讲，要培养良好的伦理责任意识，其中最主要是能够正确识别各类责任主体的利益关注点。具体的伦理责任是：尊重个人自由，强化技术保护，严格操作规程，加强行业自律，承担社会责任。

因此，分析数据伦理问题，提出与大数据创新相关的价值追问，对于企业、个人、社会大众、政府来说，都会带来积极效益。

在第一次开设《数据伦理》课程时，我就发动学生们和我一起，参考IEEE等已有行业协会提出的伦理规则，针对大数据采集、交易和应用不同阶段，经过案例分析，总结提炼出若干原则来指导大数据科技人员进行从事更美好、更持续的创新，增进社会福祉！

欢迎交流讨论，谢谢！

编辑：卢苗苗

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过

提个醒：营养是鸡蛋的15倍，是牛奶的8倍，春夏多吃，免疫力明显提高，全家受益！