哪家数据供应商的数据好用?
The following article is from 屁屁的sas数据分析 Author 屁屁的铭仔的数据之路
一、接数据的背景
每家公司都有接第三方数据的需要,但是第三方数据如果不是你们老板有很强势的关系,可以说让对方免费给你们提供,那么理论上都是要花钱买的,价钱从1分钱-到十几块不等,类型之前我也介绍过,有各式各类的授权获取的爬虫数据,理论上,只要你需求,客户授权了,那么供应商都可以帮你爬。数据供应商加工过所谓他们通过内部渠道拿到的一个统计数据,这个统计数据一般不经过客户授权,所以只能是“统计”数据,你要是详细那就不合规了,例如客户装的app类型有哪些之类的,还有一类就是数据公司为了避免你不能对他辛辛苦苦清洗的数据创造出对你们公司有效益的信用评分卡,所以他也会做一些信用分,卖给你们公司,那么基本上就这三类,当然也有一些特别的数据,掌握在少数公司的手上。
二、一般数据需要
其实我个人觉得,数据这东西跟买化妆品是一个道理,每个人都有每个人的肤质,每家公司有自己客群,别人好用的你不一定好用,别人不好用的,你们家公司指不定就好用,也不是数据越全越好,这句话不是说数据维度多不好哈,要是你们什么数据都有,数据成本一个客户才一块钱,我真的要说,你们老板真他妈牛逼,数据当然越多越好,但是也要从成本考虑。所以我认为一般的公司的三方数据大概涵盖这几部分就可以了,你们家要是放那种一笔好几十万的,那请对客户打破砂锅问到底吧。我说的一般就是放款那种1000-50000的哈。
1.一到两项授权数据,基本配备:运营商数据。太多授权,客户体验感会不好,产品经理说的,运营商数据不仅检查客户的欺诈嫌疑,还有可以做为贷后催收的不时之需。
2.多头、黑名单,有利于做前置规则。
3.可以衡量用户资产的数据,有征信就征信,没有就信用卡额度之列的数据,有利于 定额度,或者消费数据也是可以的。
三、为什么测数据麻烦
1.假设你不是领导,那么供应商来你们公司给你们介绍产品,介绍产品后,除非产品烂到你觉得,特么这种傻逼数据怎么可以拿出来卖,不然你都要测数据吧,当你答应人家决定测试数据的那一刻起,旁友们,你的事情就来了。测数据的第一步就是提数据,如果你们家只有一个产品,那还好,重点是,你们公司要是真的只有一个产品还能养活你们全部的人,那真是牛逼!!!既然要测,那就多个产品都测一下吧,然后取数就是,各个产品取数,匹配标签,匹配额度,三要素加密,按照数据供应商的格式给人家送过去。
2.测完呢,你就要分析了,评估数据效果,这个不同的数据效果怎么评估我在之前的文章已经介绍过一些,但是这个工作量肯定是要抽出一个人力一个工作日去分析的,分析只是一部分,还有一些保密协议琐碎的事情,这里就不算工作日了。
3.这是花钱买的,所以除非你是哪个可以出钱的人,不然你这个数据一定要用汇报 结果,汇报结果就一定要突出你的数据的价值,当然这是后话了,毕竟你要是数据 真的有用,价值只是你的展示形式而已。
四、怎么好好选供应商
那既然测数据这么麻烦,那么为了节省人力去做不必要的人力测试,在选择供应商的数据可以怎么选呢,我讲了那么多就是要供应商要好好找。这里我肯定不会告诉你家数据好不好,只是分享一些我的一些建议,肯定有比我更有经验的人,他们的建议会更好,所以你也是酌情的看哈:
1.多头数据
黑名单数据同理。首先,我们先说下现在多头数据的来源,我们不说那种买别人家的数据又卖你们的这种“中间商赚差价”的哈,最普遍就是跟各家机构合作,统计各家机构对用户的在数据供应商的查询次数,例如你本来是帮别人做运营商爬虫的,然后一客户7天在你们授权爬取了3次,那么可能就是7天多头是三次,这只是举例也有其他方式,那么这种多头数据的供应商,为了数据的准确性,就要看他们家产品或者他们合作的公司的覆盖率,例如现在市面上有2000家网贷机构,他们家就覆盖了1999家,你有什么理由不跟他合作。其次就是通过支付数据或者运营商数据算客户多头的供应商,这类的话就突破了要合作很多公司的限制的问题了,但是至于准不准就要看这家公司数据清洗,以及各方面数据的权重比例,有些公司会只是用三方支付数据算多头,有些只用客户运营商短信数据算多头,这些都有各自的优势,与各家合作的方式,那么存在客户可能只是在这里提交信息,但是申请到一半他觉得烦琐,或者你给的额度他不满意他取消了,那三方支付数据可能算的就是客户真实的放款的记录,这其实也可算共债,但是三方有些公司会因为一般不是所有公司的三方支付用的都是供应商的三方支付平台,所以也会有缺陷的地方。但是总的来说,对于多头的数据,在选择公司的时候还是需要看公司的合作规模,总结起来的就是,接多头数据的公司你要了解到你知道胖友基本都有用他们家的多头,再粗暴点就是这个家公司“够大够久”。
2.爬虫类数据
旁友们,如果在网贷公司待久了,就会经常听到关于爬虫接口,“接口不稳定,今天10-11点的数据返回失败,还在排查”,我们以运营商爬虫的数据举例,运营商的爬虫各家公司都是由两部分组成,就是报告+详细通话记录,报告的部分各家有各家的风格,就是根据底层的数据统计一些比较常用的特征维度还有一些手机号码本身的一些属性组成。例如在网时长,归属地之类的。那么在接爬虫类数据的情况是这样子的,本身爬虫就是一个在库数据你去查询的形式,所以爬虫出现异常的概率会高一些,那么好的爬虫类供应商首先在做到一点就是异常的频率要低,其次就是价格要低,不要喷我说你又要价格低还有质量好,你干嘛不上天,你别说,嘿,我这会就在你头顶上飞呢。价格和质量,还是你们内部衡量哈,在这总结到的就是爬虫类的数据,不是公司“够大够久”就好,而是数据供应商这个数据推出市场做的够久且用的人够多,为什么是这样子呢,你用的公司多了,且用的时间长了,相当于你这个产品基本遇到的坑都踩过了且也补好了,你以后碰到坑的机会就不会太多了,所以在接这种数据之前,先问,你们这个产品上线多久了。
3.信用分
其实我一直都不愿意公司在有模型团队的情况下去外面买各种申请分,这样子那岂不是告诉我,我还不如外面那些“野花”吗,开个玩笑,主要是各类公司的各类分,他这个分是服务于市面上很多家公司,换句话说,就是你现在买了这个分,有一天这个分对于你们公司的用户群失效,那你觉得数据供应商会为了你这颗小草,放弃我的整片森林吗?想的美,所以对于这种分,我一般的建议你可以问人家你这个分有哪些维度组成,你去买维度,当然他有什么维度你都买,那就是斥巨资了,其实我想表达就是,你可以以联合建模的方式,用他们的维度,建立一个属于你们的信用分,要是有多余的钱,再挑一些备用的维度,买回来,监控着,要是模型效果下降的时候可以替补上去。
4.买特殊维度
有些特殊的数据要特定的公司才有的,例如航旅信息,还有一些不能说的维度,不然又有人来攻击我, 你们竟然还私底下偷偷我们这啊那啊的数据,我想劝你一句,胖友,你要是不成上网,我估计就找不到你了。那么对于这类维度,真的有些公司,我真心想吐槽一下,你说你做维度就做维度,你知道吧我们分析建模,都希望拿到数据直接就是数值型!!!,敲重点,数值型,因为我们可以直接量化分析,你要是标签也可以,但是你不要一个维度好几千个标签嘛,我遇到过一个数据,就是标签性的,是这样子一个001用户a1变量值为:“A/B/C”(A\B\C代表着标签,例如母婴,五金之类的标签),002的维度是“A\B\D”,那其实001和002的相差就是C、D标签的不同,但是机器不认啊,那相当于我分析的时候还是要拆成A标签是否命中的形式啊,那为什么你们干脆就不要分这么多,你给我一个这个用的核心标签呢。这是我的吐槽哈,也可能是我不能把你们的数据用的很好,但是你千万不要怪我,因为你那数据卖我了嘛。这个总结起来就是说,胖友们,维度你千万不要为难自己去挑一些你要清洗很久的数据,你花钱了嘛,当然就是买可以方便用的数据啦,这个可以在商务来介绍产品的时候,你看下产品返回样例。
来源|屁屁的sas数据分析
更多精彩,戳这里: