数据猿专访 | 比邻弘科联合创始人史建刚：数据造假忍无可忍，我们要像金庸一样创造一个“不妥协的世界” | 自由微信

查看原文

其他

数据猿专访 | 比邻弘科联合创始人史建刚：数据造假忍无可忍，我们要像金庸一样创造一个“不妥协的世界”

Original 2016-10-24 张叶数据猿

<数据猿导读>

近年来，移动互联网浪潮席卷着中国市场。而在这次革命浪潮中，众多资本涌入，造成移动流量推广行业迅猛发展的同时，也滋生了很多产业泡沫，其中最大的泡沫就是流量造假。比邻弘科告诉数据猿记者，大量数据造假，让大数据的精准无处可放

来源：数据猿记者：张叶

近年来，移动互联网浪潮席卷着中国市场。而在这次革命浪潮中，众多资本涌入，造成移动流量推广行业迅猛发展的同时，也滋生了很多产业泡沫，其中最大的泡沫就是流量造假。

流量造假的恶果之一是获客成本居高不下。表面上看似2元买来的假量用户，最终核算到真用户头上，价格已经超过100元。

假量造成的恶果之二是“假量”输出。一方面，假量输出给互联网公司，掩盖产品问题，让企业被假量绑架，失去创新动力；另一方面，假用户、假数据一层层被输出给VC，再到资本一级市场、二级市场，所有参与其中的人从上到下精心维护着一个“皇帝新衣”。

如果不及时遏制假量输出，最终危害的是市场秩序，引发的是产业动荡和社会不安。

这段话是数据猿记者在见到史建刚之前，从他的知乎（账号：以史为贱）上看到的文字，字里行间不难看出他对数据造假的深刻认识以及深恶痛绝。

“比邻弘科一直致力于大数据精准营销，为企业提供精准的用户画像。但是有一次，我们遇到一个客户，他们的数据实在让人难以容忍。一般而言，企业数据掺假量为2-20%，也算是行业默认的‘可容忍度’，但是他们给出的数据——真实数据量占比20%——实在是突破了我们的心理底线。通过这样的数据做任何数据分析和数据挖掘都是没有意义的。”史建刚告诉数据猿记者。

大量数据造假，让大数据的精准无处可放。比邻弘科一下子被推到极为尴尬的境地，要么跟着做假，要么隐忍行业恶习，显然都不切实际。经过长时间思考，他们最终决定走一条不一样的路——跟数据造假者对着干。“只要是问题，就存在商机，那么比邻弘科在市场上就有机会。这就是我们研发流量反作弊产品的初衷。”

众所周知，金庸先生为成人世界描写了一个“江湖童话”，虽然跟真实世界格格不入，却别有一番逻辑。史建刚称，比邻弘科也想效仿金庸老先生，走一条与别人不同的路，造就一个绝不妥协的江湖世界，所以将产品取名为“量江湖”，是一个极具“江湖气息”的流量反作弊产品。

反作弊，我们是专业的

虽然数据造假有各种手段和方式，但行业里针对流量造假的反作弊手段无非三种，史建刚为记者介绍到：

第一种，以人肉为中心的反作弊防护体系。比如通过第三方统计数据，依靠人工检查IP重或不重，转化有没有问题，这种做法即费时又费力。但是目前很多公司依然停留在这一阶段，配置十分落后，落后就要挨打。如果整个生态环境都是这种水准，还谈什么行业发展？

第二种，以KPI为中心的反作弊防护体系，是利用专业系统评估每个渠道和每个用户质量。这种方式2-4人团队配合，成本大概一年40-80万不等，主要利用IP地址、留存、启动次数、在线时长等关键参数。

第三种，以UBP（用户行为模式）为中心的反作弊防护体系，这也是比邻弘科主推的反作弊手段，需要接入大量数据源，如IP库、智能设备库、用户行为数据等。

比邻弘科将SDK嵌入到客户系统之后，能够读取设备信息并对数据进行分类鉴别。从造假数据的特征来看，如果是假用户，刷量过程中只会在APP模拟指标、模拟留存上下功夫，没有其他动作。而一台正常手机，95%以上都安装微信，80%用户会刷微博、用百度、上淘宝，可是虚假用户的这些行为数据是没有的。

另外，真人拿着手机在吃饭时，会时常链接到运营商网络进行基站切换，而造假的手机ID是不发生变化的，就像一个安静的美男子被固定安排在一间房间内偷偷刷流量“吐”数据。

除了人肉刷量、机器刷量外，市场上当然还有很多其他造假手段。史建刚坦言，比邻弘科目前并不能全覆盖数据造假手段。而且，“道高一尺，魔高一丈”，就行业现状而言，帮人刷量的团队水平普遍高于普通公司的“防假”能力，造成许多企业对于数据造假防不胜防。如此一来，只有将问题交给专业负责反流量作弊的公司来做才是正确选择。

比邻弘科服务过很多客户，一旦行业内刷量技术有了新变化，他们就有能力快速识别并作出技术反应。“我们拥有自己的异常行为特征库，积累了1000余种异常行为数据，这也是比邻独特的优势之一。”

打击造假，还要靠强劲的技术手段

作弊识别是极其复杂的一项工程，有的作弊特征非常明显，有的则隐藏很深，还有少量数据特征不够明显，甚至是概率事件。史建刚称，在识别作弊行为上其实可以采用多层防护、多维判定、独立识别、综合评定的全套作弊识别解决方案。

首先，数据过滤过程中使用三层分滤技术：第一层快速过滤常见指数和参数，如果有明显问题很快就能被挑出来；第二层分析群体行为，进一步筛选异常数据；最后，利用异常行为特征库和用户行为数据分析，但这需要很高的计算成本。

“正是因为使用了三层过滤技术，我们才能够在10分钟内快速识别数据真假。因为在第一层和第二层过滤时，绝大部分用户已经判定完全，问题基本被解决，用时大概10分钟。但是会剩下少数‘疑难案例’需要调用更多数据识别，进行深入的第三层筛选。”

任何科研技术的研究都不是一蹴而就。比邻弘科的产品研发也是从耗时几小时逐渐被缩短至十分钟。“我们希望能够给客户提供一个10分钟之内的解决方案，这也是最初确定的目标。因为10分钟对客户来说是有意义的：如果超过1小时，客户体验会很差，但如果设定1秒钟也不实际。10分钟，是比邻弘科经过3个月的算法研究，验证多次后得出的最佳筛选效果的最短时间。”

其次，用指纹DNA技术标定设备。由于每台设备ID都是唯一标识，通过采集真实设备上的其他信息，如IP地址、CPU信息、操作系统版本等各种数据组合在一起，编写“设备指纹DNA”程序，用来确定设备ID的真实性。指纹DNA概念是这两年新兴技术，属于独特信息的合理取值，之所以用“指纹”定义，也是因为它具有独一无二性，不可被伪造。

不过，行业不同，数据特征多多少少会有所差别，筛选结果也会有所遗漏。目前，比邻弘科的假量筛选准确率达85%以上。在这些假数据里：一部分是可以完全确定的假量；一部分是可疑性数据。

另外，史建刚坦言，目前他们的数据模型，在辨别真假时也存在“证据不足”的现状，但这些可疑信息依然会提供给客户，然后由客户结合自己的数据作出判断，因为比邻弘科在为客户提供服务时不会采集客户的业务信息。

微信小程序出现，反作弊行业将会受到冲击！

在采访中，当记者问到比邻弘科接下来的计划时，史建刚并没有直接回答这一问题，而是先表达了他对9月21日，张小龙宣布微信小程序上线一事的看法。在史建刚看来，在这样的背景下，反作弊的“量江湖”好像有了不一样的意义。

其实，在同一天还有一条消息被大家忽视了，那就是百度放弃了曾经19亿美金收购的91助手。史建刚告诉数据猿记者，两件事情放在一起，可以说宣告着整个移动互联网时代正式进入下半场。

他向记者解释说，在移动互联网时代的上半场，投资人、运营者都在拼产品、拼模式以及拼融资能力。但是随着人口红利下降，获客成本提高，运营成本必然增加。所以，下半场，将是企业间拼运营的时代，这就为流量反作弊产品提供了生存机会。

首先，在运营阶段，企业要把推广成本降下来就需要通过反作弊体系筛选出真假用户，并对渠道进行评价，以便帮助企业调整定价。

其次，企业竞争的本质其实是用户时间。很多公司通过不同维度把用户分类，比如消费贡献、内容贡献、在线时长贡献等；也会把用户分成好几种，如金字塔尖用户、正常用户、边缘用户，但是这种金字塔用户结构是不合理的。要把各层面用户均匀化，彻底了解用户，对用户进行画像。这是“量江湖”将要做的事。

但是，随着“微信小程序”时代的到来，“量江湖”受到了冲击。史建刚无奈地说：“有了小程序，APP数据封闭在系统内出不来，即使想要判断真假，我们也有心无力。所以，比邻弘科必须加快脚步向前走，从原来反作弊体系向运营体系过度。”不过，史建刚还是很乐观的对记者说，“虽然新模式出现了，但谁对它都没有办法，大家都在一起等待。”

本文记者张叶（微信：1104644189）

来源：数据猿

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅