数据猿专访 | 比邻弘科联合创始人史建刚:数据造假忍无可忍,我们要像金庸一样创造一个“不妥协的世界”
近年来,移动互联网浪潮席卷着中国市场。而在这次革命浪潮中,众多资本涌入,造成移动流量推广行业迅猛发展的同时,也滋生了很多产业泡沫,其中最大的泡沫就是流量造假。比邻弘科告诉数据猿记者,大量数据造假,让大数据的精准无处可放
来源:数据猿 记者:张叶
近年来,移动互联网浪潮席卷着中国市场。而在这次革命浪潮中,众多资本涌入,造成移动流量推广行业迅猛发展的同时,也滋生了很多产业泡沫,其中最大的泡沫就是流量造假。
流量造假的恶果之一是获客成本居高不下。表面上看似2元买来的假量用户,最终核算到真用户头上,价格已经超过100元。
假量造成的恶果之二是“假量”输出。一方面,假量输出给互联网公司,掩盖产品问题,让企业被假量绑架,失去创新动力;另一方面,假用户、假数据一层层被输出给VC,再到资本一级市场、二级市场,所有参与其中的人从上到下精心维护着一个“皇帝新衣”。
如果不及时遏制假量输出,最终危害的是市场秩序,引发的是产业动荡和社会不安。
这段话是数据猿记者在见到史建刚之前,从他的知乎(账号:以史为贱)上看到的文字,字里行间不难看出他对数据造假的深刻认识以及深恶痛绝。
“比邻弘科一直致力于大数据精准营销,为企业提供精准的用户画像。但是有一次,我们遇到一个客户,他们的数据实在让人难以容忍。一般而言,企业数据掺假量为2-20%,也算是行业默认的‘可容忍度’,但是他们给出的数据——真实数据量占比20%——实在是突破了我们的心理底线。通过这样的数据做任何数据分析和数据挖掘都是没有意义的。”史建刚告诉数据猿记者。
大量数据造假,让大数据的精准无处可放。比邻弘科一下子被推到极为尴尬的境地,要么跟着做假,要么隐忍行业恶习,显然都不切实际。经过长时间思考,他们最终决定走一条不一样的路——跟数据造假者对着干。“只要是问题,就存在商机,那么比邻弘科在市场上就有机会。这就是我们研发流量反作弊产品的初衷。”
众所周知,金庸先生为成人世界描写了一个“江湖童话”,虽然跟真实世界格格不入,却别有一番逻辑。史建刚称,比邻弘科也想效仿金庸老先生,走一条与别人不同的路,造就一个绝不妥协的江湖世界,所以将产品取名为“量江湖”,是一个极具“江湖气息”的流量反作弊产品。
虽然数据造假有各种手段和方式,但行业里针对流量造假的反作弊手段无非三种,史建刚为记者介绍到:
第一种,以人肉为中心的反作弊防护体系。比如通过第三方统计数据,依靠人工检查IP重或不重,转化有没有问题,这种做法即费时又费力。但是目前很多公司依然停留在这一阶段,配置十分落后,落后就要挨打。如果整个生态环境都是这种水准,还谈什么行业发展?
第二种,以KPI为中心的反作弊防护体系,是利用专业系统评估每个渠道和每个用户质量。这种方式2-4人团队配合,成本大概一年40-80万不等,主要利用IP地址、留存、启动次数、在线时长等关键参数。
第三种,以UBP(用户行为模式)为中心的反作弊防护体系,这也是比邻弘科主推的反作弊手段,需要接入大量数据源,如IP库、智能设备库、用户行为数据等。
比邻弘科将SDK嵌入到客户系统之后,能够读取设备信息并对数据进行分类鉴别。从造假数据的特征来看,如果是假用户,刷量过程中只会在APP模拟指标、模拟留存上下功夫,没有其他动作。而一台正常手机,95%以上都安装微信,80%用户会刷微博、用百度、上淘宝,可是虚假用户的这些行为数据是没有的。
另外,真人拿着手机在吃饭时,会时常链接到运营商网络进行基站切换,而造假的手机ID是不发生变化的,就像一个安静的美男子被固定安排在一间房间内偷偷刷流量“吐”数据。
除了人肉刷量、机器刷量外,市场上当然还有很多其他造假手段。史建刚坦言,比邻弘科目前并不能全覆盖数据造假手段。而且,“道高一尺,魔高一丈”,就行业现状而言,帮人刷量的团队水平普遍高于普通公司的“防假”能力,造成许多企业对于数据造假防不胜防。如此一来,只有将问题交给专业负责反流量作弊的公司来做才是正确选择。
比邻弘科服务过很多客户,一旦行业内刷量技术有了新变化,他们就有能力快速识别并作出技术反应。“我们拥有自己的异常行为特征库,积累了1000余种异常行为数据,这也是比邻独特的优势之一。”
作弊识别是极其复杂的一项工程,有的作弊特征非常明显,有的则隐藏很深,还有少量数据特征不够明显,甚至是概率事件。史建刚称,在识别作弊行为上其实可以采用多层防护、多维判定、独立识别、综合评定的全套作弊识别解决方案。
首先,数据过滤过程中使用三层分滤技术:第一层快速过滤常见指数和参数,如果有明显问题很快就能被挑出来;第二层分析群体行为,进一步筛选异常数据;最后,利用异常行为特征库和用户行为数据分析,但这需要很高的计算成本。
“正是因为使用了三层过滤技术,我们才能够在10分钟内快速识别数据真假。因为在第一层和第二层过滤时,绝大部分用户已经判定完全,问题基本被解决,用时大概10分钟。但是会剩下少数‘疑难案例’需要调用更多数据识别,进行深入的第三层筛选。”
任何科研技术的研究都不是一蹴而就。比邻弘科的产品研发也是从耗时几小时逐渐被缩短至十分钟。“我们希望能够给客户提供一个10分钟之内的解决方案,这也是最初确定的目标。因为10分钟对客户来说是有意义的:如果超过1小时,客户体验会很差,但如果设定1秒钟也不实际。10分钟,是比邻弘科经过3个月的算法研究,验证多次后得出的最佳筛选效果的最短时间。”
其次,用指纹DNA技术标定设备。由于每台设备ID都是唯一标识,通过采集真实设备上的其他信息,如IP地址、CPU信息、操作系统版本等各种数据组合在一起,编写“设备指纹DNA”程序,用来确定设备ID的真实性。指纹DNA概念是这两年新兴技术,属于独特信息的合理取值,之所以用“指纹”定义,也是因为它具有独一无二性,不可被伪造。
不过,行业不同,数据特征多多少少会有所差别,筛选结果也会有所遗漏。目前,比邻弘科的假量筛选准确率达85%以上。在这些假数据里:一部分是可以完全确定的假量;一部分是可疑性数据。
另外,史建刚坦言,目前他们的数据模型,在辨别真假时也存在“证据不足”的现状,但这些可疑信息依然会提供给客户,然后由客户结合自己的数据作出判断,因为比邻弘科在为客户提供服务时不会采集客户的业务信息。
在采访中,当记者问到比邻弘科接下来的计划时,史建刚并没有直接回答这一问题,而是先表达了他对9月21日,张小龙宣布微信小程序上线一事的看法。在史建刚看来,在这样的背景下,反作弊的“量江湖”好像有了不一样的意义。
其实,在同一天还有一条消息被大家忽视了,那就是百度放弃了曾经19亿美金收购的91助手。史建刚告诉数据猿记者,两件事情放在一起,可以说宣告着整个移动互联网时代正式进入下半场。
他向记者解释说,在移动互联网时代的上半场,投资人、运营者都在拼产品、拼模式以及拼融资能力。但是随着人口红利下降,获客成本提高,运营成本必然增加。所以,下半场,将是企业间拼运营的时代,这就为流量反作弊产品提供了生存机会。
首先,在运营阶段,企业要把推广成本降下来就需要通过反作弊体系筛选出真假用户,并对渠道进行评价,以便帮助企业调整定价。
其次,企业竞争的本质其实是用户时间。很多公司通过不同维度把用户分类,比如消费贡献、内容贡献、在线时长贡献等;也会把用户分成好几种,如金字塔尖用户、正常用户、边缘用户,但是这种金字塔用户结构是不合理的。要把各层面用户均匀化,彻底了解用户,对用户进行画像。这是“量江湖”将要做的事。
但是,随着“微信小程序”时代的到来,“量江湖”受到了冲击。史建刚无奈地说:“有了小程序,APP数据封闭在系统内出不来,即使想要判断真假,我们也有心无力。所以,比邻弘科必须加快脚步向前走,从原来反作弊体系向运营体系过度。”不过,史建刚还是很乐观的对记者说,“虽然新模式出现了,但谁对它都没有办法,大家都在一起等待。”
本文记者张叶(微信:1104644189)
来源:数据猿