数据挖掘干货分享
Data mining 是Knowledge-Discovery in Databases的一个步骤,一般意义上的数据挖掘就是从海量的数据中,通过一定的支持算法,搜索隐藏在数据之间的关系。现代数据挖掘依赖于计算科学、统计学、情报检索、机器学习、专家智库等因素。
当前和今后很长一段时期内,大数据储量差不多以每年增长一倍的速度不断增长,如何从这些海量的信息中发现隐藏在数据之间的联系,得出想要的数据结果,这就是数据挖掘所要做的事情,举个栗子,互联网上让你剁手的各种爸爸们如何精准的推送广告,让你剁手不止,吐血不停,精力不足,仿佛身体被掏空,这就是爸爸们通过对用户行为数据的挖掘得出来的;再举个生物狗能理解栗子,在一堆基因中,哪个和哪些会对肺癌的发展有影响,这就需要通过数据挖掘的手段来分析得出。
上面给出的是2011年到2015年的增长趋势
首先,你要最好学过数学,并掌握一门计算机语言,不懂计算机语言也没关系,我会以Python3.5+ 给出示例代码,后面的几个部分也是针对Python3.5+来分享,但是你会发现大多数的我们在代码中始用的轮子会有其他语言的的API,因为本身Python就是一种被称为胶水语言的三方友好语言,可以在Python中享用Java,C的很多东西,不少的Python的轮子都是建立在以上的基础上,尤其是在数据挖掘方面运用的轮子。
解释一下为什么我选择Python,在生信领域,R、Python、Perl三家,Python 基本上能把前两家能干的活都干掉之外,在网络编程,硬件编程,GUI编程,机器学习领域有一定的优势。
Top 10 classcial algorithms
AdaBoost
Apriori
CART (classification and regression trees)
C4.5
k-means
SVM (Support Vector Machine)
EM (Expectations Maximization)
PageRank
kNN (k-Nearest Neighobors)
Naive Bayes
Machine Learning Pirmary Tutorial
First Meeting with Machine Learing
Some wheel for machine learning
Small demo of machine learning
Using more Machine Learing freamworks for Data Mining
Speed up your runing
Image recognition and classification
Python 数据可视化
Python 数据可视化的轮子推荐
Python 数据可视化之基本作图
Python 数据可视化之GEO作图
Python 数据可视化之其它作图
浅谈信息安全(附赠)