版权声明:本文为CSDN博主「dufman」的原创文章。遵循 CC 4.0 BY-SA 版权协议,附上原文出处链接,点击右下角即可阅读原文。
最大的区别:DM还应用了其它领域的思想,工具和方法,尤其是计算机科学,如:数据库和机器学习,同时关注的某些统计学家关注的不同领域。统计学有着正统的理论基础,其最初含义是”陈述事实“,以及找出枯燥的大量数据背后的有意义的信息。而现在,统计学又同商业有着特殊的关联。数据挖掘:仅是考察大量的数据驱动的模型,从中发现最适合的。统计学家常常会忽略对数据的特别分析,他们更偏向于太细致的研究模型,却很难发现明显的结构。这可能就导致搞研究的不适合搞技术,搞技术的适合搞研究,这中间的矛盾就是研究者和实践者之间的隔阂了。事实上,大量的数据可能包含不可预测但却很有价值的结构,这就是数据挖掘的任务了。相对保守,发展趋势越来越精确。当然,这本身不是坏事,只有越精确, 才能发现真理,但是一旦过度则是有害的。建立在数学背景下的统计,追求精确俨然是一种趋势。在采用一个方法之前,首先考虑的是证明它的正确性。而不是像计算机科学和机器学习注重自学习的过程,注重经验学习的过程。
尽管统计学的一些分支侧重于描述,也会存在一个核心的问题就是通过观察样本情况去推测总体。必然,这也是DM要做的事情。DM的特性:要处理一个大数据集。这就意味着,要考虑到可行性的问题,我们常常得到的只是一个样本,去描述这个样本来自的那个大数据集。这就是我们常说的:样本估计整体。不同点在于,数据挖掘往往可以得到数据总体。例如:一个公司所有职工的数据,数据库中的所有客户的资料,去年的所有业绩,销售记录等。在这种情形下,推断就没有价值了。这就意味着,建立的统计模型是通过一系列概率描述(如:一些参数接近于0,则会在模型中删除。其意思就是这个数据段发生的概率低,在统计学习分类的时候,在前期数据处理的过程中,这段数据就已经被清除了),但当总体数据可获得话,在数据挖掘过程中这就变的毫无意义。
在这里,我们可以从很多方面对应用参数进行评估:针对数据的足够的表述。事实是,我们常常关注模型是否合适而不是它的可行性,在很多情形下,使得得到模型很容易,却在跑实际数据的效果很差(这个问题,是所有数据挖掘者的诟病,有机会我们再来探讨)。例如:在寻找规则时,常常会利用吻合度的单纯特征(应用分支定理)。当我们应用概率陈述时则不会得到这些特征。一方面:统计学模型是基于分析变量间的联系。另一方面:有时候这些模型对于数据的总体描述却又毫无道理的。例如——关于信用卡业务的回归模型可能会把收入作为一个独立的变量,因为一般认为高收入会有大的业务。这可能只是一个理论模型(尽管基于一个不牢靠的理论)。相反,在一些只需一些可能具有解释意义的变量上进行逐步的探究,从而可能获得一个具有很大预测价值的模型,尽管我也不知道这正确与否(事实有时却是如此)。然而当我们通过数据挖掘去发现一个模型的时候,常关注的是后者,就是创建获得模型。现在统计学是以模型为主,计算、模型条件次之,他们关心的也就是如何建立一个好的模型,通过这个模型获得更高的匹配度或准确率。在DM中,关注点却不完全如此。在DM中,准则起了核心的作用。当然在统计学中准则定也不能忽视,如:基于模型经典的多变量统计分析(这里暂不多介绍)。
相对于统计学而言,准则在数据挖掘中起到核心的作用也就不足为奇了。数据挖掘起源于计算机科学又终止于统计数学。在实际的实施中,数据集的规模也决定了传统的统计学规则不适合解决数据挖掘问题,只能重新设计。同样准则也在统计学中得到了很大的发展,但更多的应用在机器学习(“自学习”的过程中)。
很多情况下,数据挖掘的本质更强调偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的,这和确定性的分析是不同的。(实际上,一个人是不能完全确定一个理论的,只能基于全局下提供证据和不确定的证据。)确定性分析着眼于最适合的模型,建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。然而,实验性的数据分析对于统计学并不是什么新事务,或许这(偶然实验性的分析)才是统计学家应该考虑作为统计学的另一领域,而这已经是数据挖掘基础。所有这些都是正确的,但事实上,数据挖掘所遇到的数据集相比于统计标准来看都是巨大的。在这种情况下,统计工具可能会失效,百万个偶然因素可能就会使其失效,这时统计学似乎遇到了瓶颈。
如果数据挖掘的主要目的是为了发现,那它就不关心统计学领域中的在回答一瓶颈问题之前,应该考虑的是如何更好的收集数据,如何把收集到的数据更好的体现价值。
因为:数据挖掘本质是建立在假想数据已经被搜集好,关心的只是如何发现其中的秘密。
而相反的是:统计学在回答发现其中秘密之前,要做的是如何很好的搜集数据。在面临这个问题的时候,我们又看到统计学与数据挖掘的统一与依赖,这里的统一与依赖已经不是我们传统认为的简单的互相支持与借鉴。而是在于,在两个领域借鉴对方的不同的思维方式,因为直接照搬早已不切实际。
当只有1000个参数的时候,对于统计学家来说,已经是很大了。但是这对于公司大量数据参数来说太微不足道了。很明显,面对这么多的数据,需要的是设计出不同于原始的统计分析方法。这就暗示着利用计算机处理大数据,对数据进行分析和处理成为了关键。在面临垃圾数据纵横的数据集面前,直接处理数据显然变得不切实际。这就衍生出数据的与预处理的过程(ETL过程)。在这过程中计算机体现的作用是:分析者和数据之间的媒介(数据过滤)。如果我们理解什么是ETL过程,我想我们会明白,这对数据挖掘结果的成功与否意味着什么。(后面,我们会更深入的谈到什么是:ETL过程。你可以把下面一段话作为ETL过程的开端)
下面来关注一下歪曲数据的非预期的模式出现的可能性。这与数据质量相关。所有数据分析的结论都依赖于数据质量。GIGO的意思是垃圾进,垃圾出,它的引用到处可见。一个数据分析者,无论他多聪明,也不可能从垃圾中发现宝石。对于大的数据集,尤其是要发现精细的小型或偏离常规的模型的时候,这个问题尤其突出。当一个人在寻找百万分之一的模型的时候,第二个小数位的偏离就会起作用。一个经验丰富的人对于此类最常见的问题会比较警觉,但出错的可能性太多了。
一、微观层次,即个人记录。例如,特殊的属性可能丢失或输错了。我知道一个案例,由于挖掘者不知道,丢失的数据被记录为99而作为真实的数据处理。
二、宏观层次,整个数据集被一些选择机制所歪曲。交通事故为此提供了一个好的示例。越严重的、致命的事故,其记录越精确,但小的或没有伤害的事故的记录却没有那么精确。事实上,很高比例的数据根本没有记录。这就造成了一个歪曲的映象,可能会导致错误的结论。统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。例如,银行事务每天都会发生,没有人能等三个月才得到这可能是一个错误分析。类似的问题同样发生在总体随时间变化的情形下。
说到这里,我想大致说明了什么是数据挖掘?什么是统计学?尽管有一些概念交叉重复,但是具体的点我们可以看出统计学与数据挖掘的区别。
但是,数据挖掘者,也不可持完全的非统计的观点。例如:获得数据的问题。统计学家往往把数据看成一个按变量交叉分类的平面表,存储于计算机等待分析。如果数据量较小,可以读到内存中。但在许多数据挖掘问题中,这是不可能的,大量的数据常常分布在不同的计算机上。极端的是,数据分布在全球互联网上,致使基于此类问题获得一个简单的样本将变得不太现实。
在描述数据挖掘技术的时候,我发现以依据建立模型和模式发现为目可以更好的区分两者之间的关系。模型概念在统计学中起到核心作用,在建立模型的时候,尽量要概况所有的数据,以及识别,模式分布的形状。这样的“全”模型的例子如对一系列数据的聚类分析,回归预测模型,以及基于树的分类法则。相反,在模式发现中,要尽量识别小的偏差,发现行为的异常模式。
例如EEG轨迹中的零星波形、信用卡使用中的异常消费模式,以及不同于其它特征的对象。很多时候,这第二种实验是数据挖掘的本质,试图发现渣滓中的金块。然而,第一类实验也是重要的。当关注的是全局模型的建立的话,样本是可取的(可以基于一个十万大小的样本发现重要的特性,这和基于一个千万大小的样本是等效的,尽管这部分的取决于我们想法的模型的特征。然而,模式发现不同于此。仅选择一个样本的话可能会忽略所希望检测的情形。
尽管统计学主要关注分析定量的数据,数据挖掘则更多意味着还需要处理其它形式的数据。特别当逻辑数据越来越多。例如:当要发现的数据的模式是由连接和分离的要素组成的时候(指数据之间的关联性和非关联性)。类似当我们碰到数据格式高度有序的时候。分析数据的要素可能是图像,文本,语言信号等。
数据挖掘分支,主要分为:分类、聚类、关联、异常处理。
分类:一般指,通过对训练集进行计算产生一个特定的模型。训练数据作为输入,以计算得到的模型作为输出。产生的模型,用于对目标集数据库数据进行元组分类。算法:决策树、神经网络、基于距离、统计等方法。
聚类:基于多指标(因素)分类,即多元分类。将本身没有类别的样本聚集成不同的组集合(簇的定义)。目标使得使得同一簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。关联:即,关联规则。从大量数据中发现项集之间的相关联系。最经典的应用:Apriori算法,采用逐层的迭代策略,先产生候选项集,再对候选项集进行筛选,然后产生频繁集,接着以此类推,通过筛选减少候选项集,加快关联规则挖掘速度。异常诊断:异常数据的处理。Outlier和Noise的区别:Outlier是真实存在的,但与一般实例不一样的表现。而Noise是错误的数据,可能是采集、存储、运输中发生的问题,在数据清洗中要去掉的数据。数据清理:一般指两方面。一、FeatureSelection(特征提取),这是机器学习经常要做的事情,除去无关或影响甚微的性质Feature,不仅提高了算法的准确率,还减少计算复杂度。二、Instance selection(示例提取)。这就是要清除那些与目的无关的例子。如:研究男性的问题,就不应该混入女性的数据。
数据挖掘与机器学习不同,它是一个自底向上的技术。它关注数据的密度、维度、噪声、分布以及数据点之间的相似性,它的终极目标就是在一个大表(行为实例、列为性质)中填补那些缺失的、错误的数据。从数据的密度上,有稀疏性的算法,如矩阵分解。在数据维度上,常常需要降维(dimension reduction)技术,如SVD,PCA等,对噪声和Outlier的处理,与聚类算法息息相关。衡量数据点的相似性,对应的也就是研究两点之间的距离,距离函数对不同数据的数据类型又是不一样的选择。
譬如欧几里得距离适合衡量低维的数据,因为在理论下,高维下,任意两点的欧式距离将十分相似。这时候角度是不会改变的,于是Cosine distance就有了好的表现,但它的弱点是不能衡量长度。有时,统计相关性(correlation)也会作为距离的函数,不过它只是衡量线性关系,你拿Y=X^2的数据给它,得出来X,Y的相关性居然是0,为什么?因为他们是二次相关。
在做多Feature的数据挖掘任务时,标准化(Normalization)是必不可少的工作。可以想象,如果不做标准化,值域大的因素容易覆盖预测的结果,尤其是在相同的权值影响下(考虑权值的情况下)。
引:中科大·龙星计划《数据挖掘》
数据挖掘有时候被误解为是一次性的实验。它更应该被看作是一个不断的“学习”的过程(尽管数据集是确定的)。从一个角度检查数据可以解释结果,以相关的观点检查可能会更接近真实结果。关键是,除了极少的情形下,我们也不知道哪一类模式到底更有意义。数据挖掘的本质是发现非预期的模式,同样非预期的模式要以非预期的方法来发现。
数据挖掘的新颖性是:可以把数据挖掘当作是从一个观点相关联的认识到结果的一个过程。许多数据挖掘的结果是我们所期望的——可以再利用。然而,建立在这个事实基础之上却并不能否定我们已经挖掘出它们的价值。因为没有这些实验,可能根本不会想到这些。实际上,只有那些可以依据过去经验给出合理性解释的结果才是最有价值的。
显然在数据挖掘依然存在着一个潜在的机会。就是在随着大数据集的数量与日俱增的情况下,建立在大数据集基础之上的发现可能性的模式。然而,机遇面前必然存在风险。真正的数据集(即使那些是以完全自动方式搜集的数据)都有产生错误的可能。在关于人的数据集(例如事务和行为数据)更有可能产生错误。这很好的解释了,在绝大部分的数据中发现的“非预期的结构”本质上是无意义的。(当然,预期的结构可能会是有意义的:如果数据有问题,可能会干扰搜集数据的目的,最好还是先了解它们)。与此相关联的就是如何确保和至少为事实提供支持所观察到的模式是“真实的”。“真实性”的问题是要求我们确定是否是一个随机样本碰巧发生的情况下导致结果的产生。而隐藏背后的原因,则需要更多的统计学家和数据挖掘工作者进一步的研究。————————————————————
说明:前段时间看到这篇文章,对于数据挖掘工作者来说,很有价值的一篇文章,但是翻译的很拗口。希望通过自己的语言总结一下,可以把一些概念理清。如有错误, 后会继续完善。
原文章来自于《Statistics and Data Mining: Intersecting Disciplines》
作者:David J. Hand
http://www.36dsj.com/archives/5114
这里是大数据、分析技术与学术研究的三叉路口
作者:dufman推荐:杨奇明编辑:青酱