其他

数据挖掘干货分享

2017-10-13 KIM 生信媛
What is data mining?


Data mining 是Knowledge-Discovery in Databases的一个步骤,一般意义上的数据挖掘就是从海量的数据中,通过一定的支持算法,搜索隐藏在数据之间的关系。现代数据挖掘依赖于计算科学、统计学、情报检索、机器学习、专家智库等因素。


Why we using data mining?


当前和今后很长一段时期内,大数据储量差不多以每年增长一倍的速度不断增长,如何从这些海量的信息中发现隐藏在数据之间的联系,得出想要的数据结果,这就是数据挖掘所要做的事情,举个栗子,互联网上让你剁手的各种爸爸们如何精准的推送广告,让你剁手不止,吐血不停,精力不足,仿佛身体被掏空,这就是爸爸们通过对用户行为数据的挖掘得出来的;再举个生物狗能理解栗子,在一堆基因中,哪个和哪些会对肺癌的发展有影响,这就需要通过数据挖掘的手段来分析得出。


上面给出的是2011年到2015年的增长趋势


How to be smart in data mining?


首先,你要最好学过数学,并掌握一门计算机语言,不懂计算机语言也没关系,我会以Python3.5+ 给出示例代码,后面的几个部分也是针对Python3.5+来分享,但是你会发现大多数的我们在代码中始用的轮子会有其他语言的的API,因为本身Python就是一种被称为胶水语言的三方友好语言,可以在Python中享用Java,C的很多东西,不少的Python的轮子都是建立在以上的基础上,尤其是在数据挖掘方面运用的轮子。

解释一下为什么我选择Python,在生信领域,R、Python、Perl三家,Python 基本上能把前两家能干的活都干掉之外,在网络编程,硬件编程,GUI编程,机器学习领域有一定的优势。


Project Plan
  • Top 10 classcial algorithms

    • AdaBoost

    • Apriori

    • CART (classification and regression trees)

    • C4.5

    • k-means

    • SVM (Support Vector Machine)

    • EM (Expectations Maximization)

    • PageRank

    • kNN (k-Nearest Neighobors)

    • Naive Bayes

  • Machine Learning Pirmary Tutorial

    • First Meeting with Machine Learing

    • Some wheel for machine learning

    • Small demo of machine learning

    • Using more Machine Learing freamworks for Data Mining

    • Speed up your runing

    • Image recognition and classification

  • Python 数据可视化

    • Python 数据可视化的轮子推荐

    • Python 数据可视化之基本作图

    • Python 数据可视化之GEO作图

    • Python 数据可视化之其它作图

  • 浅谈信息安全(附赠)




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存