点融网亿级业务量背后的大数据技术应用
内容来源:2017年6月11日,点融网 Data Scientist Team负责人刘利在“饿了么&七牛云联合论坛 大数据最新场景化应用实践”进行《大数据技术在点融网业务的应用介绍》演讲分享。IT 大咖说作为独家视频合作方,经主办方和讲者审阅授权发布。
阅读字数:1722 | 4分钟阅读
摘要
如何从复杂的数据关系中找到用户的行为模式,从而为线上的风控策略提供决策参考,是FinTech风控管理的重要一环。借助大数据技术,我们能够迅速捕捉用户行为模式的细微变化,从多个角度发现用户之间的深层次关系,为风控提供强有力的支持。本分享着重介绍点融的机器学习平台,以及数据团队在风控业务中的案例分析。
https://v.qq.com/txp/iframe/player.html?vid=n05651pwgsh&width=500&height=375&auto=0
点融在6年前成立于上海,拥有Lending Club的技术平台。获得了Tiger Global,Standard Chartered Private E quity等多家知名风投基金。现在在国内有28个办事处,超过2600名员工。我们发起了中国第一个区块链平台。目前,总用户投资金额已经超过290亿元人民币,对用户的利息回报已经超过10亿人民币。
机器学习的一般流程首先是有一个数据集,拿到数据集之后进行拆分,拆成训练集和测试集。根据测试集的内容有数字类型的,有分类变量的,还有文本类型的,拿到这些变量后进行融合。
接下来要对这些特征进行分析,然后再做Model,去选择一些长算法,看看哪个算法最能达到想要的效果。每个算法都有一些外在输入的参数,这些参数和它本身的算法有关。于是就需要根据自己的经验去调整参数,选择效果最佳的Model。
收费:按nessus或它的配套方案收费。比如它是部署到云端的,可以在公司做本地化部署,但这是要收费的。
数据安全:云端部署需要把数据上传到云端,这对于很多互联网公司,尤其是注重安全和质量的公司来说,是不愿意去做的。即使对中间一些关键的因素做了加密之后依然无法打消对安全的顾虑。
数据可视化:很多开源工具不提供数据可视化的功能,可能要用开源的其它工具进行可视化处理。
分布式:还有一些算法不提供分布式,只能在单机上跑。所以很大程度上就取决于这台服务器内存的大小。
模型结果部署:当训练出一个流程之后,怎样部署到生产线上。这对于不怎么熟悉这套流程的人来说,是不会想到部署这块是非常需要我们关注和解决的问题。
我们的点融机器学习平台是基于一个spark集群,在开源的框架上自己加了一些二次开发,在其中加入了我们觉得重要的一些特点。
因为点融机器学习平台基于spark集群,所以它可以读取hdfs数据,这是最基本的要求。
我们可以做到数据可视化。当数据进来之后,点一个你想要的,它可以把整个数据集的特征分布描述出来。
当数据集读进来之后,可以通过一个按钮直接进行重要性排序,在分析过程中节省时间。
很多算法在变量如果出现一些强相关的情况时,算法的结果会大打折扣。所以我们加入了一个特征,就是可以看变量之间的相关性。
模型库已经包含了大部分常用的spark算法,还加入了一些深度学习的算法。
我们有一个一键发布的按钮,当Model生成完之后可以直接点Publish,生成一个接口,这个接口就是以后直接用来调用部署的方式。
关系的数据已经通过点和数据连成了一个很大的图,中间在历史数据中知道哪些点哪些人是坏的还是好的,可以进行标注。
在这个图上可以用相关算法去做学习,得到一些结果。
假如把每个用户三度人脉所关联的点全部抠出来,这样每个人的三度人脉都是一个很小的图。这样可以根据历史数据标注出哪些小图标注成好的,哪些标注成坏的。机器学习完全可以通过小图的结构进行学习。
平滑假设:如果两个点的坐标很近,那么这两个点所属的类别有很大可能性是一样的。这个假设是满足所有做回归学习的一个前提假设。
聚类假设:聚类学习可以得到不同的子类,子类里的点很大概率属于同一个类别。
流形假设:如果在特征空间里有些点是属于不同的流形结构,应该不是很大概率属于同一个类别。
在图的结构中可以通过社区相关的一些算法去发现,图中某些点和某些人的关系要比其它的点密切得多。
如果模型效果不太好,也许首先要考虑的就是特征是否还不够好,想办法去找出更多的特征。以及对数据的处理是否还不够到位,对数据本身的特征还分析得不够深入。可能在使用数据上已经犯了一些错误,以至于模型效果不太好。
如果算法本身是偏简单或偏线性的,它的效果可以作为标准,使用更复杂的去拟合数据集。
复杂的非线性算法有一些超参数,越复杂的算法超参数就越多。
模型融合是效果不佳时应该尝试的一种方法。
我今天的分享就到这里,谢谢大家!
相关推荐
推荐文章
近期活动