查看原文
其他

算法值得信任吗?O'Reilly创始人给出了四条评估原则

2016-09-29 大数据文摘


摘要:现代社会日益受到算法的控制,也许算法的所有者对此也无法做出解释。算法不仅影响消费者的选择,也影响企业的决定。在不知道算法所遵循的确切规则的情况下,我们该如何衡量算法是否值得信任呢?O'Reilly Media 的创始人 Tim O'Reilly 给出了4条原则,并且用几个实际案例分析了这4条原则是如何应用的。

先放出这四条评估算法是否值得信任的规则:

  • 1.算法创造者清楚解释了他们寻求的结果是什么,而外部观察者验证这一结果是可能的。

  • 2.成功是可以衡量的。

  • 3.算法创造者的目标与算法消费者的目标一致。

  • 4.算法是否导致创造者和用户做出更好更长期的决策?


◆ ◆ ◆


7年前,大型综合医疗保健供应商凯萨医疗机构的 CIO John Mattison对我说:“21世纪的一大问题将会是‘你信任哪家的黑箱?’”他指的是算法在医学上的重要性与日俱增,但是他的观点展开来讲,就是我们越来越信任的那些系统其实我们并不理解它们用于决策的方法。(从定义来说,黑箱是指输入输出均已知,但是输入如何被转换成输出却未知的系统)


算法在塑造消费者体验当中扮演的角色引起了关注。但算法在塑造商业决策的诱因中扮演的角色大家却不怎么注意。


比方说,大家对Google或者Facebook的算法如何确定我们看到的新闻的困惑感已经持续了多年。Eli Pariser警告我们必须小心“过滤器泡沫”,也就是算法包办了我们的喜好,不断地喂给我们自己希望听到的东西,而不是展示其他的观点给我们看。这是个真正的风险——尽管搜索引擎和社交媒体公司也在努力克服这一点。


但有一个风险更加深层次也更加普遍,这个风险是我最近跟VentureBeat的Chris O'Brien讨论时冒出来的。也就是说,算法也在影响作者、发行商的选择。你写东西和发表东西是选择最优报道价值的呢,还是选择最容易受到社交媒体关注的?你采用的格式对于主题是最公道的(深度、权威性的研究,所谓的“长文”),还是你认为短的有力度的文章更有利可图,因为后者能产生更高的浏览量,收获更多的广告收入?你是不是更倾向于视频而不是文字,即便后者能让你做得更好?


为什么新闻媒体会降低难度,导致甚至连伟大的发行商也追求炒作文化、虚假争议的报道风格以及其他一些理论驱动技巧?需要引起搜索引擎和社交媒体注意无疑是因素之一。美国总统选举无底线的报道风格,其实是新闻业收入从订阅转向广告、从稳妥的本地读者转向迎合社交媒体读者这一重大转变的意外事故。你如果你希望自己的业务繁荣,就必须取悦算法。


O'Brien还谈到了媒体记者在驾驭算法需求时遇到的困难。在确定自己的故事能否被看到的事情上,算法的需求往往是相互抵触的。你是要针对Google搜索结果做优化还是优先照顾Facebook的新闻流?当两种不同的算法需求发生冲突或者突然改变时会发生什么呢?


当Google还是唯一的主导力量时,搜索引擎优化(SEO)的手段相当直截了当。Google提供了丰富的工具帮助web发行商理解自己的算法看重什么类型的东西,什么样的东西会发出危险信号。有整整一个行业(“白帽SEO”)的人来帮助web发行商来做好这件事情,还有一个行当(“黑帽SEO”)的人则在帮助厚颜无耻的绕开规则。黑帽SEO的形式之一是炮制“内容农场”,把大量带有交叉链接的劣质内容(往往是从别的网站搜刮过来的)集中在一起,愚弄算法让后者以为这些劣质内容应该被赋予很高的权重。2011年,当Google重新调整算法让内容农场降级之后,许多采用这种做法的公司受到了重创。许多因此而歇菜(本来也应该),另外一些则不得不改进自己的业务做法以求生存。


面向Facebook的发行商最近也有类似的经历,上个月,Facebook宣布对新闻流算法进行了更新,不再重视带有“点击欺骗”(标题吸引眼球但内容质量不高的文章)性质的头条新闻。就像Google一样,Facebook的目标值得鼓励:营造更好的用户体验。就像Facebook研究人员Alex Peysakhovitch和Kristin Hendrix在声明中写道一样,“我们新闻流的价值之一,是平台要有可靠的信息……这正是为什么我们要努力理解大家认为什么类型的故事和文章才是真实的,好让我们能在新闻流中展示更多。我们还致力于理解什么类型的故事文章有误导性和垃圾内容,从而确保大家少看到一些这样的内容。”


巴菲特说过一句著名的话,“要赢得好的声誉需要20年的时间,而要毁掉它,5分钟足矣。如果你能这样思考的话,你的做事方式就会不同。”Google和Facebook都理解自己的名声是建立在大家能找到自己想找的东西上,这两家都采用了“长点击(long click)”和“短点击(short click)”的概念来衡量这个。(如果有人点击链接后就回退的话,说明对内容不感兴趣。如果点进后驻留了一段时间才返回的话,说明很有可能他们花了一些时间来考察结果。这就是他们发现东西有价值的相当好的信号。)


这就引出了黑箱问题。据Facebook负责新闻流产品管理的副总裁Adam Mosseri说,“Facebook不会公开发布有关点击欺骗定义的多页指南文档,因为这很大一部分跟垃圾内容有关,如果我们把自己在做什么以及怎么做披露出来的话,对方就会采取逆向工程,想出绕开我们的手段。”


因为塑造我们这个社会的许多算法都是黑箱——无论是出于Facebook提到的理由,或者是因为在深度学习的世界里,它们本身甚至对于创造者来说也高深莫测——因此信任的问题成为了关键。


在不知道算法所遵循的确切规则的情况下,理解如何去评估算法已经成为今天这个世界的关键学科。其可能性是存在的。


以下就是我对算法是否值得信任的4条评估规则:

  • 1.算法创造者清楚解释了他们寻求的结果是什么,而外部观察者验证这一结果是可能的。

  • 2.成功是可以衡量的。

  • 3.算法创造者的目标与算法消费者的目标一致。

  • 4.算法是否导致创造者和用户做出更好更长期的决策?


下面我们用几个例子来论证这四条原则的应用。


◆ ◆ ◆

Google搜索和Facebook新闻流


继续前面的讨论,你可以看到我这4条原则在Google搜索和Facebook新闻流的应用:

  1. 阐明预期结果。Google和Facebook都已经明确指出,自己的算法优先考虑用户利益而不是广告商或者发行商的。因为目标已经明确指出,所以当情况似乎并非如此时很容易就会引发疑问。表述清晰可以让评估算法是否实现目标更加容易。

  2. 可衡量性。硅谷公司非常擅长做A/B测试,然后找到衡量自身算法是否满足目标的手段。比方说Google就有一支搜索质量团队,利用了成千上万“土耳其机器人”风格的评审人员对搜索结果给出好评或者差评,不过他们更重要的评估是基于实际用户行为的手段,比如是长点击还是短点击,或者大家是首先点击排位第一的结果还是第二结果,或者排在第10位的结果。至于广告,Google提供了测算广告有望获得的点击数的广告工具,并且建立了一套仅根据点击数来收费的商业模式,通过这些来建立信任。这种可衡量性是推动Google取得财务成果的关键,因为这种按点击付费的广告模式要比之前按页面浏览量付费的模式的可衡量性要高得多。(值得注意的是,Facebook并没有此类按点击付费模式;他们甚至连等价于页面浏览量的东西都没有。相反,Facebook提供的是“到达数(reach)”——即你的文章出现在多少人的新闻流里面。对方看不看是不知道的。他们还提供了一个互动指标——点进、分享你帖子或者对其做出反应的人。)

  3. 目标一致。从长期来看,Google和Facebook以及他们的用户之间的目标是高度一致的。如果他们不断向用户展示对方不想看的内容,那些用户最终也会停止使用他们的服务。这些服务和广告商之间的目标也高度一致。如果广告言过其实,客户就不会购买。但是这些服务与内容发行商之间可能会存在目标分歧。为了获得内容更高的能见度(哪怕内容并非针对用户优化),发行商有强烈的诱因去诱导系统。Google面临着内容农场的问题,Facebook等社交媒体遭遇了点击欺骗和清单式文章( listicles)。调整算法来应对这些反作用力已经成为算法经理的工作,就像飞机自动导航仪设计师必须设计算法来应对各种变化的天气条件一样。

  4. 长远决策。平台目标与用户目标在短期内是一致的。但是从长期来看也如此吗?

◆ ◆ ◆

自动驾驶汽车


在现在这股自动驾驶汽车和卡车的狂热下,很容易就让人淡忘了其实我们的飞机很大程度上已经是无人驾驶的,而且有一段时间了。任何坐飞机的人都得把自己的生命托付给一个机器人。是,驾驶舱是有飞行员,但他们掌控飞机的频度并不如你想象那么高。他们充当的角色是“机器人管理员以及备份机制。”飞行员不是被取代,而是晋升为经理了。他们做出类似“改变航线高度,因为控制交通管制报告说前方有恶劣天气”,或者“机上发生医疗紧急事故,所以我们需要到可容纳我们飞机的最近机场着陆。”之类的管理决策。哪怕是军事无人机,也仍然有这样的监管员就位。只是他们是在地面上,也许有几千公里之遥。


如果你和几个月前的我一样的话,可能也一直以为自动驾驶仪就跟定速巡航控制类似——乏味的长途飞行由它来驾驶,而飞行员则处理起飞着陆这些困难之事。不是这样的。在我飞赴蒙特利尔出席StartupFest途中,我跟一位飞行员进行了广泛交谈(甚至还坐到了副驾驶的位置,得以感受一下自动驾驶仪为了保持航线做出的精密调整)。


那位飞行员告诉我的东西令人大开眼界,情况正好跟我想象相反。“在像旧金山这样繁忙的机场由人来控制起飞着陆是不行的。如果时间和高度控制不精确的话,你会搞砸所有人的事情。”“那你们什么时候才手动控制?”“周围没有别人的时候。”


我们再拿飞机自动驾驶仪来验证了以下这四条原则:

  1. 阐明预期结果。让飞机按照预定路线从A点飞到B点。对风和天气按照航空学的已知原则做出正确响应。针对繁忙机场的拥堵进行优化。不要撞机。

  2. 成功是可衡量的。在由大规模传感器及控制器组成的电枢帮助下,自动驾驶仪可以对那些传感器的实时数据做出响应,从而使得上述预期结果得以达成。GPS、高度传感器、空速、姿态、湍流。最终的衡量还是要看飞行是否成功:飞机实际行为是否航空学的物理规律。只要出现失败(无论上由于人为、机械或者“天灾”),国家安全运输委员会都会对事故原因进行深入分析,并进行过程改进,从而减少相同事故的发生几率。

  3. 目标一致。不会有乘客对这些目标有意见:不要撞机。在尽可能短的时间内把我送达目的地。飞行要平稳。但乘客可能会对飞机为了节省燃油消耗而不是飞行时间进行优化的决定提出质疑。而飞行员对于夺走自己工作的目标也不会赞同。

  4. 长期决策。从长期来看,飞机业主和飞行员之间,或者飞机业主与社会之间的目标可能会有一些差异。比方说,飞行员可能会提出,试验自动驾驶仪过多会导致他们必要的经验丧失,在他们突然需要人工控制飞机时会增加撞机的可能性。还有可能就是升级到全自动飞行的成本过高。也许飞机仍然配备飞行员这一事实,既证明了替代高成本设备所需时间之长,也说明了公众的恐惧以及民航机师协会对自己会员工作所进行的辩护是有道理的。


同样的分析也可以运用到无人汽车和无人卡车上。目标明清晰:避免一切事故,驾驶比任何人类司机更安全。这个目标是可衡量的,而且学习的机会越多,实现这一目标的系统就会变得更好。无人车之父之一的Sebastian Thrun说过,无人车学得比人快,因为只要其中一辆无人车犯了错误,这个错误以及避免它的办法都会转交给所有其他无人车。


至于无人汽车和无人卡车,我们可以看到最终有异议的地方还是会出在原则3、4。我怀疑无人车技术采用的拖延主要并不在于安全问题或者算法成功的可证性上,而是由于拥有量庞大的现有汽车、卡车的替换成本过大,以及那些靠开车为生的人会继续呼吁“有人参与”的必要性。


大家对确定无人车是否安全都有着共同的兴趣,我们越早接受这一点,就能越早开始讨论哪些数据需要共享,从而得出对这个问题的客观回答。然后我们就能开始讨论还有其他的哪些目标需要考虑。而一旦我们理解了支持者的目标和对算法的质疑在什么地方不一致,我们就能对哪个目标最有意义展开真正的辩论。在许多领域上,这种争论都发生市场方面,实际上是亚当斯密所谓的“看不见的手”在发挥作用。不过这往往是以政府监管的形式出现。

◆ ◆ ◆

新技术管制


仔细想想,其实政府管制也是一种算法,一套规则和过程,为的是实现确定的结果。不幸的是,在是否可以信任这个“算法”的问题上,政府管制往往都通不过我的4项测试。

  1. 阐明预期结果。管理条例发布之后,往往预期结果也会阐明。但是这种结果在形式上往往很难理解。像英国的政府数字化服务、美国的消费者金融保护局就把语言平实作为优先考虑事项,并且证明了制定目标和实现像Google搜索质量(Google Search Quality)或者Adwords品质一样的监管政策是有可能的。但这种清晰性是很罕见的。

  2. 成功可衡量。监管罕有把任何衡量或确定效果的条款纳入其中的情况。就算是进行评估,也只会发生在几年之后。

  3. 目标一致性。监管者和消费者的目标往往是一致的——比如说,在1911年发生了纽约三角内衣工厂火灾之后设立的法尔码(fire code)就是例子。但监管政策往往满足的是政府需求而不是公民或者那些接触调控过程的人的需求。政策制定者已经接受了这样一种想法,即规则是用来平衡参与各方冲突的利益而不是服务大众——至今我仍然记得跟前众议院议长佩洛西就2011年的《禁止网络盗版法案》进行的一场对话。我提出这是一项糟糕的公关政策,但她的回应告诉了我什么才是真正的决策衡量准则:“我们必须在技术界与好莱坞之间进行利益平衡。”

  4. 长远决定。随着时间的转移,监管会逐渐跟不上社会的需求。当监管收不到预期效果时,通常都不会停止。而新的监管措施往往就是简单地在原来基础上叠加。


我们可以从一个很好的例子开始。消费者金融保护局(CFPB)有一项提案跟发薪日、车主以及特定高成本分期贷款有关。我们看到,这项监管政策有着明显的理性思维:

本局考虑到了贷款人已经有成形的商业模式,这些模式实际上已经背离了其他一些信贷市场的做法,没有办法对消费者偿还贷款的能力进行评估,并且在寻求从消费者账户转移款项时形成了一些有害的做法。本局认为,上述贷款很有可能对消费者造成伤害,因为许多消费者都在努力偿还贷款。特别是许多申请上述贷款的消费者似乎缺乏偿还能力,在难以承受的还款到期时往往面临着3个选项之一:取出额外贷款,拖欠贷款,或者进行还款但无法偿还其他主要债务或无力承担基本生活开支。许多贷款方可能寻求直接从消费者账户取走还款。本局认为,当贷款人从消费者账号重复多次不成功的取款尝试时,消费者可能会受到多重收费等损害。


提案继续规定了处置这种情况的规则。CFPB还把衡量和执行的机制也落实到位了。


作为对比,我们再看看纽约给的士和豪车司机制定的规则。其目的陈述模糊,适用范围令人困惑。你们可以试试,看看有谁能想出一套方法论来评估一下那些规则究竟能不能实现预期结果。


我是最近从纽瓦克机场打Lyft到曼哈顿时想到这个的。就像以往一样,我向司机问起了他的工作。其中一个问题是他会不会在把握送到之后再拉别的客,还是要返回新泽西。他告诉我说:“我没有在曼哈顿拉客的执照。”


好好想想这个。给Uber、Lyft以的士司机发执照的可能目标是什么?乘客安全。保护乘客受到价格欺诈。减少拥堵。(后面2个目标是1637年King Charles在伦敦制定第一部的士监管政策的理由。)禁止Lyft司机同时在新泽西和纽约接客并不能服务于上述任何一个目标。考虑到按需打车服务等新技术所带来的重塑交通选项、令城市向好发展的机会,监管目标很容易就会滞后于社会的优先考虑。我们有机会利用这些技术来提出改进交通工具使用,降低消费者成本,减少拥堵以及停车需求,改善环境等许多目标,然后据此制定衡量手段并实施。


以往导致对的士做出地理限制的目标之一,是通过限制现有司机数来支持西安欧的运输公司。明确这一目标至少可以成为讨论的起点。除非你已经知道他们想要实现什么,否则就没有办法衡量管制政策的影响。


政府无法解释或衡量或证明黑箱操作的正当性,这正是公众对政府信任达到历史新低的主要原因。当前这场选举中政治谎言的常态化并不是未来这种信任的好兆头。

◆ ◆ ◆

长期信任与主算法


而这有把握带回到开始本文的主题:算法在确定该发表什么新闻中担任的角色。当大家带着困惑在观察媒体在当前选举中的行为,在发现他们未能深入挖掘实质问题,以及聚焦于保持这场赛马的刺激性时,你就可以利用我的黑箱信任规则来帮助理解。

有一个主算法在统治着我们的社会,在此我要向Pedro Domingos道个歉,这并不是什么,也不是政府的管制措施,而是一条几十年前已经植入现代商业,并且至今基本未受挑战的规则。也就是企业的唯一义务是对股东负责。


这是这个算法让CBS主席Leslie Moonves今年3月时就川普的竞选活动说出了这样的话:“也许对美国没有好处,但对CBS来说却好极了。”这场选举是一场真正的测试,不仅对媒体发行商如此,对Google和Facebook等平台亦然。当奖赏发行商的算法与令用户受益的算法不一致时,Google和Facebook会站在哪一边呢?谁家的黑箱值得我们信任?

 

本文作者|BOXI  

转载来源|http://36kr.com/p/5053726.htm


大数据文摘长期招募活动运营(线上、线下)人员、实习生和编辑
感兴趣请联系zz@bigdatadigest.cn


长按以下二维码
将直接跳转至QQ加群

或者通过群号码285273721进群


◆ ◆ ◆

往期精彩文章推荐,点击图片可阅读


KDnuggets调查|数据科学家最常用的10种算法

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存