河南南阳收割机被堵事件:官员缺德,祸患无穷

极目新闻领导公开“记者毕节采访被打”细节:他们打人后擦去指纹

突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

退休后的温家宝

突发!北京某院集体罢工!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

十大经典挖掘算法,一个都不少

指象 数据指象 2022-07-01

NO.01:C4.5算法

全称为Classifier 4.5,由1993年 J.Ross Quinlan 基于ID3算法迭代而来的分类算法,其核心是基于信息增益来做决策树生长。关于C4.5,ID3及CART算法的对比,可参考附文。

NO.02:K均值聚类算法
简而言之,聚类分析就是将研究对象(若干个个集合)按照某种标准分成若干类。相似性的度量,参考多种距离计算公式:欧式距离,绝对距离,切氏距离,明氏距离,马距氏离,兰距氏离。
案例1:聚类,其实就是近朱者赤
案例2: 客户分类是精细化运营的第一步

NO.03:SVM支持向量机
支持向量机(SVM)将一个超平面将数据分成两类。使得高维特征空间内两个类的边缘间隔最大,定义超平面的向量就被称为支持向量。在R语言中可以之间调用svm方法使用支持向量机分类。

NO.04:Apriori 关联算法
联系是普遍存在的,关联的存在本身是有价值的,在电商推荐中关联推荐是最简单最直接有效的。关联推荐的核心有三个度量:支持度,置信度,提升度.
案例1:啤酒怎么爱上尿布?

NO.05:EM 最大期望算法 
EM聚类(Expectation Maximization),一种基于统计分布的聚类模型,以统计分布作为设计算法的依据。其实,在大数定律的约束下,不管样本的分布类型是什么,当样本类趋于无穷多,分布的类型将渐进于正态分布。基于分布的均值,方差统计量来做分类。
案例1:一种另辟蹊径的聚类:EM聚类

NO.06:PageRank算法
了解Google公司,多半都对“PageRank”算法有所耳闻。该算法是一种典型的“从群众中来,到群众中去”的民主算法。在Google搜索排序中大放异彩。
案例1:民主算法:PageRank

NO.07:AdaBoost 迭代算法
通过集成多个弱分类器,来达到“三个臭皮匠,胜过诸葛亮”的分类效果,该算法简单可分为三步:
1,初始化样本的权重。
2,迭代训练弱分类器,弱分类器的算法用户可以自定义。
3,将各个弱分类器加权平均得到强分类器。

NO.08: K近邻算法
近邻就是你周围的人, 大多数就是K个人或物中具有的普遍的大多数的属性,大概率的预判你也拥有这种普遍的多数的属性。
案例1:K近邻,最简单的预判“你买了吗?”

NO.09:朴素贝叶斯算法
贝叶斯讨论的概率是基于个人的主观概念,表达对某事某物的相信程度。与概率学派提出的客观概率截然不同。
案例1:一蛙之见“贝叶斯”

NO.10: CART 分类算法
算法的全称为:分类回归树,由Breiman在1984提出,该分类算法可以支持分类和回归问题。CART核心算法通过基尼系数代替信息增益。
案例1:简文短述:决策树

顺便推荐:
ARIMA时间序列与LSTM神经网络的PK
R语言,制作常用图表
一个公式缓解 你99%的蕉绿

马老师教AI:第五篇 统计学习方法是如何实现分类与聚类的(一)
跟我学AI:第五篇 统计学习方法是如何实现分类与聚类的(一)
图解最常用的 10 个机器学习算法!
机器学习集成多组学专题
图解最常用的 10 个机器学习算法!

文章有问题?点此查看未经处理的缓存