机器学习专栏

其他

信贷智能风控全面进阶教程

大家好,我是东哥。之前做过调查,关注我的粉丝很多都是做金融风控的,私下里交流很多小伙伴也希望有一套完整全面的风控课程跟着学习。其实话说回来,这个本也是我自己设定的任务之一了,只不过内容准备时间较缓慢。终于在经过半年日夜打磨(掉头发)之后,我的原创风控课程《100天成为风控专家》(金融信贷领域方向)来了。01课程内容这是一个录播视频+图文结合的课程,其中视频占比80%以上,均由本人录制,未来也可能加入部分直播内容。按照目前拟好的内容大纲来看,本课程至少要更新100期以上,只多不少,内容涵盖业务篇、产品篇、策略篇、模型篇,报表篇、系统篇等6大核心模块,旨在全面提高信贷风控能力。下面是课程概况介绍。此课程是永久回看且目前是在持续更新中的。本人略有点完美主义,因此对待自己交付内容的质量十分严格,内容字斟句酌地修改,视频反复录制,目的是把信贷业务逻辑、个人理解、以及知识点掰开揉碎的讲解,并且为了大家能够真正的掌握,配有大量的实战和实操案例。比如,Vintage报表通过4个小节从理论概念、多方位理解、到底层实现和报表加工逻辑、再到Python和SQL代码的实操,1小时视频+图文,我相信即便刚入行的小白都能看懂消化理解。再比如,机器学习模型自动化调参,通过2个视频40min内容,介绍了框架用法、参数理解、和一个调参实战,并且所有相关的数据和源代码都是完整提供的。所以说,对内容质量以及讲解的逻辑清晰度我是有绝对自信的,毕竟每个内容都是经过自己反复打磨过的。更新进度方面,目前整个框架已经打磨好,已经有部分视频和图文陆续上架了,其余部分正在疯狂输出中,也会马上更新出来。02关于价格本课程价格目前限时优惠中,499元加入后可永久回看,且有专属的交流群,和市面上大部分同类课程几千上万元的价格相比可以说就是白菜价。对于前期支持我的朋友,我会给足优惠福利,但后续随着内容越来越丰富,价格会不断升高恢复原价。因此还是那句话,早加入早享受。第一波的折扣名额已经被抢光了,我又添加了20个名额,价格保持到月底。如果感兴趣的话可以扫码看下课程目录和试看。长按扫码可以试看👇如果有任何疑问,可以加我了解
2024年2月21日
其他

吹爆这个 pandas GUI 神器,自动转代码!

关于pandas的GUI工具,我之前介绍过pandasgui。可以说,有了GUI可视化界面,操作就和Excel一样简单,本次再介绍一款功能更加强大的GUI神器:D-Tale。这个库的名字为啥要D-Tale呢?东哥好信还去查了下,它是detail的谐音,初衷是要提供数据的所有详细信息。下面介绍下如何使用它。启动、数据加载D-Tale支持多种文件格式,包括CSV、TSV、XLS、XLSX。它是一个以Flask
2021年10月26日
其他

机器学习模型评估指标ROC、AUC详解

ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到)。其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是:每次看书的时候都很明白,但回过头就忘了,经常容易将概念弄混。还有的朋友面试之前背下来了,但是一紧张大脑一片空白全忘了,导致回答的很差。我在之前的面试过程中也遇到过类似的问题,我的面试经验是:一般笔试题遇到选择题基本都会考这个率,那个率,或者给一个场景让你选用哪个。面试过程中也被问过很多次,比如什么是AUC/ROC?横轴纵轴都代表什么?有什么优点?为什么要使用它?我记得在我第一次回答的时候,我将准确率,精准率,召回率等概念混淆了,最后一团乱。回去以后我从头到尾梳理了一遍所有相关概念,后面的面试基本都回答地很好。现在想将自己的一些理解分享给大家,希望读完本篇可以彻底记住ROC/AUC的概念。什么是性能度量?我们都知道机器学习要建模,但是对于模型性能的好坏(即模型的泛化能力),我们并不知道是怎样的,很可能这个模型就是一个差的模型,泛化能力弱,对测试集不能很好的预测或分类。那么如何知道这个模型是好是坏呢?我们必须有个评判的标准。为了了解模型的泛化能力,我们需要用某个指标来衡量,这就是性能度量的意义。有了一个指标,我们就可以对比不同模型了,从而知道哪个模型相对好,那个模型相对差,并通过这个指标来进一步调参逐步优化我们的模型。当然,对于分类和回归两类监督学习,分别有各自的评判标准。本篇我们主要讨论与分类相关的一些指标,因为AUC/ROC就是用于分类的性能度量标准。混淆矩阵,准确率,精准率,召回率1.
2021年10月7日
其他

基于 Python 的 11 种经典数据降维算法

等,并附有相关资料、展示效果;非常适合机器学习初学者和刚刚入坑数据挖掘的小伙伴。一、为什么要进行数据降维?所谓降维,即用一组个数为
2021年10月1日
其他

史上最强:NumPy 实现全部机器学习算法,代码超3万行!

学到了很多,但二者的不同之处在于,他显式地进行了所有梯度计算,以突出概念/数学的清晰性。当然,这么做的缺点也很明显,在每次需要微分一个新函数时,你都要写出它的公式……估计
2021年9月29日
其他

知乎热议!一个博士生接受怎样的训练是完整的科研训练?

超参数自动调优教程(附代码框架)决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结
2021年9月21日
其他

一位外国小哥把整个 CNN 都给可视化了,卷积、池化清清楚楚!网友:美得不真实...

超参数自动调优教程(附代码框架)决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结
2021年9月16日
其他

一图胜千言!数据可视化多维讲解

标记),差(用圆标记):用色调表示红酒的类型,由深度和数据点大小确定的酸度表征总二氧化硫含量。这个解释起来可能有点费劲,但是在试图理解多维数据的隐藏信息时,最好结合一些绘图组件将其可视化。结合形状和
2021年9月15日
其他

LightGBM + Optuna 超参数自动调优教程(附代码框架)

最近在kaggle上有一个调参神器非常热门,在top方案中频频出现,它就是OPTUNA。知道很多小伙伴苦恼于漫长的调参时间里,这次结合一些自己的经验,给大家带来一个LGBM模型+OPTUNA调参的使用教程,这对可谓是非常实用且容易上分的神器组合了,实际工作中也可使用。关于LightGBM不多说了,之前分享过很多文章,它是在XGBoost基础上对效率提升的优化版本,由微软发布的,运行效率极高,且准确度不降。目前是公认比较好,且广泛使用的机器学习模型了,分类回归均可满足。关于调参,也就是模型的超参数调优,可能你会想到GridSearch。确实最开始我也在用GridSearch,暴力美学虽然好,但它的缺点很明显,运行太耗时,时间成本太高。相比之下,基于贝叶斯框架下的调参工具就舒服多了。这类开源工具也很多,常见的比如HyperOPT。当然今天主角不是它,而是另外一个更香的OPTUNA,轻量级且功能更强大,速度也是快到起飞!因为需要用
2021年9月14日
其他

决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

作者:ChrisCaohttps://zhuanlan.zhihu.com/p/75468124一.
2021年9月13日