使用R语言实现数据分段

2016-02-20 刘顺祥 每天进步一点点2015

今天跟大家讲讲我工作中用到的数据分段，数据分段一般在什么地方会使用到呢？评分。之前写过一篇实战: RFM模型使用，那篇文章就详细介绍了CRM（客户关系管理）分析中关于RFM的应用。应用中就提到如何对R(最近一次消费距当前的时间间隔)、F(时间段内的消费频次)和M(时间段内的消费总额)指标进行分段，形成三种得分指标，最后根据得分指标计算出每个用户的总得分，从而可以计算用户的价值高低。

本文与之前提到的文章不同之处在于脚本的更改，使脚本更具灵活性。《实战: RFM模型使用》文中对R、F和M分段使用for循环，而且需要对每一个指标做循环，如果某个数据框的字段非常多，这样用for循环就显得非常麻烦。所以就有必要写一段更灵活的连续变量分段操作的R脚本。这里用案例说明一下数据分段操作：

#随机参数一列会员的消费总额

set.seed(1234)

Money <- c(round(runif(n = 5000, min = 56, max = 9143)), round(rnorm(n = 5000, mean = 892, sd = 23)))

#使用《实战: RFM模型使用》的分段方法，这里分成10段，尽量保证每段中的数据量大致相当

library(Hmisc)

#使用cut2()函数对数据进行分段

M_X <- cut2(x = Money, g = 10, onlycuts = TRUE)

#使用for循环将每一段范围值设定一个评分，即1:10分

M_score <- 0

for(i in 1:10) {

M_score[Money >= M_X[i] & Money < M_X[i+1]] = i

#由于范围Money < M_X[i+1]不包含最后一个值，故另外计算

M_score[Money == M_X[11]] = 10

}

table(M_score)

通过上面的方法，可以将连续型数据分成n段，从案例返回的结果可知，10段中的样本量基本相当，可以视作分段成功。下面再看看自定义函数实现的分段：

#自定义得分函数，x为目标向量，g为所需分段数量

Score_function <- function(x,g = 10){

require(Hmisc)

#计算分段的切割点

cuts <- cut2(x,g = g, onlycuts = TRUE)

#将所需结果存放在res数据框中

res <- data.frame(x=x, cut = cut2(x, cuts = cuts),score = as.numeric(cut2(x, cuts = cuts)))

#这里返回res数据框中的评分字段

return(res[,'score'])

}

M_score2 <- Score_function(x = Money, g = 10)

table(M_score2)

同样，分段的结果与《实战: RFM模型使用》脚本的结果一致，这里说一下自定义函数的优势：

1）可以灵活的更改分组数量，即g参数

2）不需要循环，速度得到提升

3）可以结合sapply()函数，应用于大型数据框（高维数据），从而避免对每个字段都计算一次for循环

下面创建一个数据框，来验收一下自定义函数的效果：

set.seed(1234)

x1 <- round(rnorm(n = 5000, mean = 125, sd = 30))

x2 <- round(runif(n = 5000, min = 10, max = 100))

x3 <- round(runif(n = 5000, min = 100, max = 1000))

x4 <- round(rnorm(n = 5000, mean = 100, sd = 10))

df <- data.frame(x1 = x1, x2 = x2, x3 = x3, x4 = x4)

#结合sapply()函数

df2 <- sapply(df, Score_function)

head(df2)

df2 <- as.data.frame(df2)

table(df2$x1);table(df2$x2);table(df2$x3);table(df2$x4)

如果使用《实战: RFM模型使用》的方法，4个变量需要单独拿出来做4次for循环。如果你觉得还可以再套一个循环，这样就可以不用单独4次for循环了，问题是这样做会大大降低计算效率，影响速度。

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)