剖析谷歌打击广告欺诈的秘密武器
在伦敦的圣吉尔斯高街九层的一间会议室中,俄罗斯工程师 Sasha 启动了一台电脑,并开始指导我。「首先,让我们登陆一些网站。AdAge.com,这个网站怎么样?」他命令道。当这个网页在我的浏览器中加载的时候,在左边的一个窗口中运行着一系列的代码。几秒钟以后,Sasha 解释了刚刚发生的故事。「我担心当你在与我们的团队沟通的时候,你不应该只是在我们告诉你的时候你才去登陆一个网站。这台崭新的电脑已经被感染了,您正在参与一个僵尸网络。」
事实上,我正在链接的网站并不是 AdAge.com,这意味着我被攻击了;访问这个网络上的任何网站都会感染这台电脑。但是 Sasha 看起来似乎很享受我的这种不自然,他的工作才刚刚开始。Sasha 是谷歌的秘密反欺诈团队。该团队的 100 多人的主要工作是和那些不知数量的网络罪犯开战,这些网络犯罪包括那些积极侵吞数字广告行业的数十亿美元资产的人,他们主要通过建立机器人流量来代替人类的访问量。和谷歌的很多神秘的项目一样,该小组从未向外界宣布其寻找僵尸网络的方法,或是允许其他人进入办公室来观察整个过程。但是,当 Sasha 打开电脑的那一刻,这种沉默结束了。
对于网络的参与者,无论大小,数字广告欺诈都是一个明显的日益增长的问题。由于广告收入与数字媒体流直接相关,这些数字媒体流包括电视、打印等,同时也伴随着数字化运动走向自动化,因此已经把这个空间变成沃土一些互联网上最糟糕的演员。根据反欺诈公司 White Ops 和国家广告商协会的一项研究,在 2015 年由于广告欺诈产生的损失将达到 63 亿美元。全球最大的广告科技公司谷歌损失将会最大,因为每天通过其广告服务器、自动买盘平台和广告交易系统运行大量的事务。如果广告商认为该公司的操作充满了欺诈,他们可以将资金投往其他地方,那么商业就会发生动摇。
关于谷歌的广告技术霸主地位的最佳推算来自于 Ghostery 公司的一份数据,Ghostery 是一家专注于监测网站广告的广告科技公司。在 2013 年 9 月出具的一份预估中,Ghostery 发现谷歌服务了 3160 亿次的广告。而排名第二的 OpenX 公司只有 844 亿次。这样的分量意味着当谷歌面对广告欺诈时,它也会将其放到适当的位置,从而导致斗争。截止目前,该公司主要通过在幕后与广告欺诈进行抗争,但是这样其实很难解决问题,其中的部分原因将会呈现。
「我们认为通过分享我们的对于此事的观点和立场等或许也可以帮助其他的产业面对这样的问题。」谷歌视频和显示广告产品副总裁 Neal Mohan 说。谷歌的决定促使我在春天的跨越大西洋的旅行,只为参与到 Sasha 及其同事中,因为他们开启了世界上最重要的、保护网页最好的秘密单元。虽然他们说的每一句话我都记录在案,但是 Sasha 和他的一些同事要求只提到他们的名,因为担心他们的安全问题。「因为这也是有组织的犯罪,因此我认为大胆说出对这种行为的反对不是一种好的方式。」其中一名成员说。
感染
当 Sasha 在两台监视器上工作的时候,阳光正好通过巨大的窗户落在办公室的地板上。六位反欺诈团队的队员稀疏地坐在这个房间中,而访问这个房间的唯一方式就是通过一个带有圆形拱顶状手柄的笨重的门。这位说话带着浓重的口音和近乎逗乐的音调的 Sasha 开始挖掘 AdAge.com 的网站代码,直到他发现了几行「开拓者」的代码——这是黑客惯用的攻击电脑的代码。当这些代码撬开了电脑的大门,幕后的操作者就可以在电脑中安装程序,从而完全控制电脑。对于一个广告欺诈者来说,这种控制非常重要。这使得他可以在后台使用这台电脑来访问网站,并且电脑的主人却浑然不知。
通过个人电脑施行电脑欺诈是其最主要的特点之一。这种黑客攻击个人机器,称为寄生虫,和计算机浏览互联网可形成僵尸网络,这意味着可以尽可能多地抓住广告商的钱袋子。通过个人电脑进行操作也可以帮助僵尸网络操作者逃避监测。通过多样化的 IP 地址和地理位置,他们可以将自己隐藏起来。「开拓者」可以通过多种途径来侵入别人的电脑,包括 Wifi 网络,包含恶意代码的广告(恶意广告),劫持家用路由器,垃圾邮件和黑客攻击的网站等。当你不行遭遇上面的任何一种情况时,「开拓者」都可以悄无声息地进入你的电脑。「普通的使用者根本就无法察觉这些事情。」Sasha 说。你甚至都不用操作也会受到感染。
尽管 Sasha 宣布我正在使用的电脑被感染了,但是如果他没有打开 WinLister 程序,那么这一切也是无从察觉。WinLister 可以在电脑的隐藏窗口中提供更多信息。在这里,他发现了一系列的 IE 窗口,所有最大化的尺寸,所有隐藏的和所有标签的信息。当 Sasha 让这些窗口显示的时候,它们就出现在屏幕上,同时光标跟踪显示关页面上的鼠标的运动。当 Sasha 放下鼠标的时候,光标继续运动和点击。像这样令我惊奇的发现却引来了他们的阵阵笑声,没有解释。或许他们并不想将这些他们每天所做的事情都给局外人解释。
蜘蛛侠
对于欺诈者来说,从感染的电脑上获得钱是一种简单的过程。这里有两种途径:你可以将流量卖给发行商,他们可以赚更多的收入;或者你成立自己的网站,将流量引到这里来,并且卖自己的广告。虽然通过僵尸网络赚钱的方式很直接,但是监测他们则是另外一回事。知道僵尸网络是一回事,但是要确定广告是否真的展示在人类面前则是另外一回事。
当 Sasha 移除机器脚本的时候,负责谷歌的查找僵尸网络操作的 Douglas de Jager 则坐在房间的后面,观察着整个过程。de Jager 先生是一位自信满满的说话直接的南非人,他在去年早些时候将自己创办的反欺诈公司 Spider.io 出售给了谷歌。虽然他的团队成员是那些坐在监视器前面的工作人员,但毫无疑问他是那个发号施令的人。很早的时候 de Jager 先生发现了网络上的这些魔鬼。「我们就是坏人中的一员。」他开玩笑说。他的第一家公司,BytePlay 为一些经纪人抄袭内容,这些经纪人觉得中间人可以在较小的网站上捕获信息来赚钱。该团队很快意识到 BytePlay 很可能成为网络魔鬼。卖掉 BytePlay 公司后,de Jager 先生决定创办 Spider.io 公司来与这些暗黑操作势力做抗争。「我希望能够阻止人们使用这些我曾经创造过的类似技术来作邪恶的事情。」
当 Spider.io 公司被谷歌收购的时候,公司一共有七位工作人员,这笔交易提供了访问谷歌计算能力的机会,因此可显著加快其进程。「曾经需要花费一天时间才能完成的事情,现在几乎一瞬间就可以完成。」de Jager 解释说。当然者也为团队带来了新的元素:限制。Spider 必须和谷歌的销售团队磨合,从而避免利益冲突。
看起来 Spider 与谷歌公司相处得很好。原团队成员和新同伴之间的关系非常明显,者就像聚集在精酿啤酒有限公司的船员,这里是一个温馨的家庭伦敦酒吧,很容易进入,但很难留下。经过几个小时的非正式谈话后,团员开始各自去用晚餐了。在出来的路上,一位资深的谷歌员工告诉我在 Spider 的收购这件事情上他是多么地高兴。
当 de Jager 先生从另一边走过去时,这些「坏孩子」已经变得远不是成熟能概括的了。他说,恶意软件曾经主要用于银行诈骗,但双身份验证严重降低了其盈利能力。然后,黑客开始信用卡诈骗,但是现在其安全程度也非常高了,即使你可以仅花数美元就可以买数千张激活的信用卡,但是这些卡并无用处。接下来就是比特币开采,这些黑客攻击的机器可用来挖掘这种加密货币。但是这也变得无利可图,只剩下广告欺诈成为网络犯罪分子最赚钱的事业。「现在我们正在面对的是将恶意软件用于广告欺诈的时代。」de Jager 说。而广告业才开始抓住这个问题。
发现欺诈者
首次看着恶意软件二进制文件时,那种感觉非常令人不安。其加密程序看起来像是计算机可能生成的最难懂的乱码的集合。该团队的新成员 Sebastian 在我的旁边坐下来,面对着检测器,然后调出了一个文件,并试图跟我解释这些令人疑惑的代码——"15 68 C8 58 00 10 57 8B"意味着「获得僵尸网络的 DNA」。二进制是一个僵尸网络的引擎,指导着受感染的电脑如何浏览网页。它会告诉电脑应该访问哪些网站,在网站页面上停留多久,需要做什么等等。谷歌的反欺诈团队通过一些资源获得源代码,包括 VirusTotal(一家恶意软件扫描公司)。然后,它必须反向设计代码,以了解一个特定的僵尸网络的特点。
二进制解码是该过程中非常重要的一步,可以让该团队完全重现脚本。「一旦我们理解了它的工作原理,它告诉我们它是什么,从而可以辨认到访问该网站的用户必须也有同样的恶意软件。」该团队的产品经理 Vegard Johnsen 说。这些在我们面前的显示屏上显示的特定的僵尸网络二进制包含了 150 个行动,每一个具体的指令都意味着一次人类访问网页。例如,该程序指示电脑创建一个隐藏窗口,使用 IE,并且让该窗口全屏显示,无声,并且让目标用户键入「利宝保险」,随机地移动鼠标。这种包含 150 个程序相对来说比较简单,一些脚本文件包含了超过 2000 个指令。这些二进制是如此详细,你可以通过它去感觉这些代码背后的人。「你知道有一个人坐在这里,选择这些东西,然后写下这些代码。我们确实想知道,坐在屏幕那边的挣了很多钱的团队究竟是什么样。」Johnsen 先生说。
通过他们的留言板,我们可以对这些诈骗者有更全面的了解。谷歌的团队监视着这些论坛,观察着这些坏事者买卖感染的电脑。在我拜访的时候,该团队向我出示了中间人的职务,包括「诈骗者勿扰」的警示。当然,中间人是指那些谁也欺骗了的人,而不是广告骗子。这些黑色市场以其自身的规则运行着。当货物进行交付时,钱可以放在这里的一个信誉系统进行托管。「有一点我们至少应该承认,那就是他们也在这个欺骗市场里投入了很多的努力。」Johnsen 先生说。然而,这些诈骗者也不是刀枪不入的。和他们开发的机器人不同,他们也会像人类一样犯错。而那些看起来微不足道的错误,往往是谷歌工作人员的切入点。
信号
长时间关于欺骗的对话当然需要足够的咖啡,而这也是谷歌最有名的微型厨房的分内之事。每一次从屏幕前退下来,有时候会持续两个小时,他们都会到咖啡机旁,利用这个机会来暂时忘却那些像素和数字。而这样的时刻也是必须的。当谷歌的打假斗士完成了重现脚本的任务后,他们留下了一个关于僵尸网络的行为的详细脚本。感谢谷歌,这种脚本可以迅速进入谷歌的数据库,然后去找到和这些脚本相匹配的受攻击的对象。
作为该程序的一部分,谷歌的团队需要将其与僵尸网络的特点和所谓的「信号」想匹配。这些特点非常直接。它们是任意类型的自然行为,例如点击率,转化率,所用浏览器和甚至点击页面等。一个僵尸网络群向我展示了叫做 z00clicker 的指示文件,它可以指示寄生虫来任意连接页面上的两个点,并沿线移动,点击任何它所穿过的东西。然后僵尸网络,就会在留下一个独特的广告创意的模式——如果你愿意,甚至可以留下签名。而通过 z00clicker 显示,在边缘的点击密度非常大,而在中心的行为则小很多。
这些特点非常重要,但是当谷歌将这些任务标记为非人类行为时,它却拒绝发行商支付该服务的费用,即不收取一分一毫的广告费。你需要更多的信息来确认这一点,因此信号也就显得尤为重要。信号是一种在正常条件下不会存在的行为,但是却是诈骗者在编程时必须用到的。「我们的工作是试着找出这些参与者不小心泄露的微弱信号。这也是我们判断是否来自受感染的电脑的信息流的一种重要方式。」谷歌团队对这些信号守口如瓶,因为其中的许多都还活跃着,一旦公布,诈骗者就会相互通风报信。
该团队也提供了几个例子,但是,从 ZeroAccess 来的信号就显得非常特别。ZeroAccess 是一种在 2013 年由微软帮助消灭的僵尸网络,但是又复活了。让我们试着来理解一下:通常情况下,重置浏览器会在 cookie 域产生一个「0」。但是,ZeroAccess 在其中植入了一个空格符。僵尸网络会在每个浏览重置会话之前重置浏览器的 cookie,因此出现的空格也很有规律。这种信号已经足够判定是否是 ZeroAccess 产生的信息流。但是通常情况下 Google 需要同一时间出现的很多信号来判断这种信号来自于某一特定的僵尸网络,然后销毁它。
Powerdrill 系统
任何可以和邪恶力量抗争的好的力量都需要硬件上的支撑。对于蝙蝠侠来说,这就是蝙蝠车;对于 Frodo 来说,这就是指环。对于 Jedis,这就是光剑。那么对于谷歌来说,这就是「Powerdrill 系统」。这是一种非常奇怪的计算系统。它可以在五秒钟之内处理数千亿个单元的数据。它可以将数据以图标图表和其它图形表示,可使人们有可能发现非人类流量的不规则性。在介绍这个工具的时候,de Jager 仅仅是贴上了一个标签「这是一只恐龙」。该团队的另一名成员 Phil 打开检测器,然后打开了 Powerdrill 屏幕,显示的是来自四个 IP 地址和一个网络服务器的全部流量。十天之内这些流量在谷歌的一个网络中产生了大约 1 亿个广告点击。「这些流量是真实的,这是使用的三天前的数据。」这些流量的总量是如此巨大,这十天之内它可能打乱了无数的广告活动的结果,而今天它仍然在运行。「这也有可能人为抬高了广告活动的点击率。」Phil 说。令人困惑的是,这种流量并不是僵尸网络的一部分。「这家公司其实是一个广告验证服务。」Phil 这样说道。这家公司的任务时浏览整个网页,并且尽可能多的采样广告,尽可能通过点击来记录每一个广告所导向的页面。
将此类信息与其他公司分享,从而打击行业的造假问题还有很长的路要走,而谷歌看起来已经开始这么做了。de Jager 说,他们团队已经开始公布坏流量的详细信息,并且提供一切披露的信息,包括广告验证公司创造的流量以及检测到某些僵尸网络的详细信息等。de Jager 希望谷歌的这种行为可以鼓励其他公司公布他们的发现,联合起来帮助行业打击广告诈骗,从而使得诈骗者无利可图。「我们的目标是增加他们的犯罪成本。广告诈骗本身并不应该成为赚钱的温床。」
在这个目标上,谷歌团队是否获得了明显的进步还很难说。在我拜访期间我也看到了斗争行动,我也听到了可以消除问题的数十个解决方案。但对广告欺诈的战争是如此的不透明,以至于如果我报道他们正在赢得战争,或者说正在抗争,这看起来都是虚伪的。如果战争胜利的那天到来,de Jager 先生有一个计划。他开玩笑说,他可能会去度假,去展示那些被揪出来的网络犯罪分子的海滩度假。去喝一杯?谁知道呢?
文章来源:Ad Age,由 TECH2IPO / 创见 杨超 编译,首发于创见科技(http://tech2ipo.com/),转载请注明出处