查看原文
其他

使用R语言实现数据分段

2016-02-20 刘顺祥 每天进步一点点2015

今天跟大家讲讲我工作中用到的数据分段,数据分段一般在什么地方会使用到呢?评分。之前写过一篇实战: RFM模型使用,那篇文章就详细介绍了CRM(客户关系管理)分析中关于RFM的应用。应用中就提到如何对R(最近一次消费距当前的时间间隔)、F(时间段内的消费频次)和M(时间段内的消费总额)指标进行分段,形成三种得分指标,最后根据得分指标计算出每个用户的总得分,从而可以计算用户的价值高低

本文与之前提到的文章不同之处在于脚本的更改,使脚本更具灵活性。《实战: RFM模型使用》文中对R、F和M分段使用for循环,而且需要对每一个指标做循环,如果某个数据框的字段非常多,这样用for循环就显得非常麻烦。所以就有必要写一段更灵活的连续变量分段操作的R脚本。这里用案例说明一下数据分段操作:


#随机参数一列会员的消费总额

set.seed(1234)

Money <- c(round(runif(n = 5000, min = 56, max = 9143)), round(rnorm(n = 5000, mean = 892, sd = 23)))


#使用《实战: RFM模型使用》的分段方法,这里分成10段,尽量保证每段中的数据量大致相当

library(Hmisc)

#使用cut2()函数对数据进行分段

M_X <- cut2(x = Money, g = 10, onlycuts = TRUE)

#使用for循环将每一段范围值设定一个评分,即1:10分

M_score <- 0

for(i in 1:10) {

  M_score[Money >= M_X[i] & Money < M_X[i+1]] = i

  #由于范围Money < M_X[i+1]不包含最后一个值,故另外计算

  M_score[Money == M_X[11]] = 10

}

table(M_score)


通过上面的方法,可以将连续型数据分成n段,从案例返回的结果可知,10段中的样本量基本相当,可以视作分段成功。下面再看看自定义函数实现的分段:


#自定义得分函数,x为目标向量,g为所需分段数量

Score_function <- function(x,g = 10){

  require(Hmisc)

  #计算分段的切割点

  cuts <- cut2(x,g = g, onlycuts = TRUE)

  #将所需结果存放在res数据框中

  res <- data.frame(x=x, cut = cut2(x, cuts = cuts),score = as.numeric(cut2(x, cuts = cuts)))

  #这里返回res数据框中的评分字段

  return(res[,'score'])

}


M_score2 <- Score_function(x = Money, g = 10)

table(M_score2)


同样,分段的结果与《实战: RFM模型使用》脚本的结果一致,这里说一下自定义函数的优势

1)可以灵活的更改分组数量,即g参数

2)不需要循环,速度得到提升

3)可以结合sapply()函数,应用于大型数据框(高维数据),从而避免对每个字段都计算一次for循环


下面创建一个数据框,来验收一下自定义函数的效果:


set.seed(1234)

x1 <- round(rnorm(n = 5000, mean = 125, sd = 30))

x2 <- round(runif(n = 5000, min = 10, max = 100))

x3 <- round(runif(n = 5000, min = 100, max = 1000))

x4 <- round(rnorm(n = 5000, mean = 100, sd = 10))

df <- data.frame(x1 = x1, x2 = x2, x3 = x3, x4 = x4)


#结合sapply()函数

df2 <- sapply(df, Score_function)

head(df2)

df2 <- as.data.frame(df2)


table(df2$x1);table(df2$x2);table(df2$x3);table(df2$x4)


如果使用《实战: RFM模型使用》的方法,4个变量需要单独拿出来做4次for循环。如果你觉得还可以再套一个循环,这样就可以不用单独4次for循环了,问题是这样做会大大降低计算效率,影响速度。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存