查看原文
其他

机器学习算法应用中常用技巧-1

2017-02-06 全球人工智能



1. 取样

数据量很大的时候,想要先选取少量数据来观察一下细节。


2. Split数据

用 sklearn.cross_validation.train_test_split 将数据分为 train 和 test 集。
sklearn:http://scikit-learn.org/stable/modules/cross_validation.html#stratified-shuffle-split


分离出 Features & Label

有时候原始数据并不指出谁是label,自己判断


3. 用 train 来训练模型,用 test 来检验

用 Decision Tree 来做个例子
sklearn:http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html


4. 判断 feature 间的关联程度

5. scaling

当数据不符合正态分布的时候,需要做 scaling 的处理。常用的方法是取log。


scaling前后对比图:



6. Outliers

方法之一是 Tukey 方法,小于 Q1 – (1.5 × IQR) 或者大于 Q3 + (1.5 × IQR) 就被看作是outlier。

先把各个 feature 的 outlier 列出来并排好序:


再配合 boxplot 观察,到底哪些 outlier 需要被移除:


本文转自    CSDN原文:http://blog.csdn.net/u014365862/article/details/54890040

全球人工智能近期经典文章推荐


Deep mind:给人工智能一个工作存储器,将会发生什么?

机器学习算法之决策树用法详解(使用Scikit-learn模块)

反向传播的意义及c++实现

匹兹堡赌场的赌神——扑克牌机器人背后的理论

6亿用户的《今日头条》和它的黑科技武器

干货|如何利用 TensorFlow 创建第一个神经网络

深度学习里数学之--方差--美妙而富有韵味

干获|详解深度学习框架——TensorFlow

Google|“自动机器学习”取得重大突破:机器设计的机器学习软件已达AI专家设计水平!

【南大教授】提出“超深度学习”欲颠覆“深度学习”,你怎么看?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存