查看原文
其他

灵活的字符串处理包:stringr

2016-04-01 刘顺祥 每天进步一点点2015

在文本或非结构数据处理中往往需要正则表达式的强大功能,需要字符串的处理,下文就讲讲这几天梳理的stringr包中的函数。该包仍然由伟大的Hadley做贡献。


word(),从句子中提取词组(适用于英语环境下的使用)

word(string, start = 1L, end = start, sep = fixed(" "))

string:需要提取的字符串对象

start:整数向量,指定从第几个单词开始提取

end:整数向量,指定取到第几个单词

sep:指定单词之间的分隔符,默认为空格


string <- 'I like using R'

word(string, 1, -1) #取出所有的句子

word(string, 1) #提取第一个单词

word(string, -1) #提取最后一个单词

word(string, 1, 1:4) #提取最后一个单词


str_wrap(),将段落划分为华丽的格式,可设置每行的宽度等。

str_wrap(string, width = 80, indent = 0, exdent = 0)

string:需要被划分的字符串

width:设定每行的宽度

indent:设定每个段落第一行的缩进格式,默认没有缩进

exdent:设定每个段落第一行之后所有行的缩进格式,默认没有缩进


string <- str_c(readLines(con = file.choose(), encoding = 'UTF-8'),collapse = '\n')

str_wrap(string) #默认以80个字节作为行宽

cat(str_wrap(string), sep = '\n') #以换行符连接每个固定长度的句子

cat(str_wrap(string, indent = 4)) #段落第一行空4个字符


str_trim(),剔除字符串多余的首末空格

str_trim(string, side = c("both", "left", "right"))

string:需要处理的字符串

side:指定剔除空格的位置,both表示剔除首尾两端空格,left表示剔除字符串首部空格,right表示剔除字符串末尾空格


string <- '   Why is me? I have worded hardly!    '

str_trim(string, side = 'left')

str_trim(string, side = 'right')

str_trim(string, side = 'both')



str_to_upper(),str_to_lower(),str_to_title(),字符串转换

str_to_upper(string, locale = "")

将字符串统统转换为大写

str_to_lower(string, locale = "")

将字符串统统转换为小写

str_to_title(string, locale = "")

将字符串换为标题格式


string <- 'Simple, consistent wrappers for common string '

str_to_upper(string)

str_to_lower(string)

str_to_title(string)



str_subset(),根据正则表达式匹配字符串中的值

str_subset(string, pattern)

string,需要处理的字符向量

pattern,需要匹配的字符模式,默认模式可以是正则表达式

该函数与word()函数的区别在于前者提取字符串的子串,后者提取的是单词,而且str_sub也可以其替换的作用。


string <- "My name is LiuShunxiang, I'm 28."

str_sub(string, 1, 1)

word(string, 1, 1)

str_sub(string, 1, 4)

word(string, 1, 4)

str_sub(string, -1)

word(string, -1)

str_sub(string, -3,-2) <- 26

string



str_split(),字符串分割函数

str_split(string, pattern, n = Inf)

str_split_fixed(string, pattern, n)

string:被分割的字符串向量

pattern:分割符,可以是正则表达式也可以是固定的字符

n:指定返回分割的个数,需要注意的是,其使用转移法分割字符串

str_split与str_split_fixed的区别在于前者返回列表格式,后者返回矩阵格式


string <- 'myxyznamexyzisxyzliuxyzshunxyzxiang!'

str_split(string, 'xyz')

str_split(string, 'xyz', n = 5) #最后一组就不会被分割

str_split_fixed(string, 'xyz', 6)



str_order(),对字符向量排序

str_order(x, decreasing = FALSE, na_last = TRUE, locale = "", ...)

str_sort(x, decreasing = FALSE, na_last = TRUE, locale = "", ...)

x:需要排序的字符向量

decreasing:排序方式,默认为升序

na_last:是否将缺失值置于末尾,默认为TRUE

str_order和str_sort的区别在于前者返回排序后的索引(下标),后者返回排序后的实际值


str_order(letters, locale = "en")

str_sort(letters, locale = "en")



str_replace(),字符串替换函数

str_replace(string, pattern, replacement)

str_replace_all(string, pattern, replacement)

str_replace_na(string, replacement = "NA")

string:需要处理的字符向量

pattern:指定匹配模式,

replacement:指定新的字符串用于替换匹配的模式

str_replace与str_replace_all的区别在于前者只替换一次匹配的对象,而后者可以替换所有匹配的对象


string <-'1989.07.17'

str_replace(string, '\\.', '-')

str_replace_all(string, '\\.', '-')



str_pad(),字符填充函数

str_pad(string, width, side = c("left", "right", "both"), pad = " ")

string:需要被填充的字符串

width:指定被填充后的字符长度

side:指定填充的方向,默认向左填充

pad:指定填充的字符,默认用空格填充


string <- 'LiuShunxiang'

str_pad(string,10) #指定的长度少于string长度时,将只返回原string

str_pad(string,20)

str_pad(string,20,side = 'both',pad = '*')



str_match(),str_match_all(),提取匹配的字符串

str_match(string, pattern)

str_match_all(string, pattern)

string:需要处理的字符串

pattern:指定匹配的模式,一般指定正则表达式

str_match()和str_match_all()区别在于前者只提取一次满足条件的匹配对象,而后者可以提取所有匹配对象


string <- c('139-1234-5678','133,1267,4589','134 6543 7890','178 2345 1111 or 133 7890 1234')

str_match(string,'[1][3-9]{2}[- ,][0-9]{4}[- ,][0-9]{4}')

str_match_all(string,'[1][3-9]{2}[- ,][0-9]{4}[- ,][0-9]{4}')



str_extract(),str_extract_all,提取匹配的字符串,功能与str_match(),str_match_all()函数类似

str_extract(string, pattern)

str_extract_all(string, pattern, simplify = FALSE)

string:需要处理的字符串

pattern:指定匹配的模式,一般指定正则表达式

simplify:默认返回值为列表,如果指定为TRUE,则返回矩阵格式,这样有助于将结果写入二维表中

string <- c('139-1234-5678','133,1267,4589','134 6543 7890','178 2345 1111 or 133 7890 1234')

str_extract(string,'[1][3-9]{2}[- ,][0-9]{4}[- ,][0-9]{4}')

str_extract_all(string,'[1][3-9]{2}[- ,][0-9]{4}[- ,][0-9]{4}')

str_extract_all(string,'[1][3-9]{2}[- ,][0-9]{4}[- ,][0-9]{4}',simplify=TRUE)



str_locate(),str_locate_all(),字符定位函数,返回匹配对象的首末位置

str_locate(string, pattern)

str_locate_all(string, pattern)

string:需要处理的字符串

pattern:需要匹配的对象,一般为正则表达式

str_locate()和str_locate_all()的区别在于前者只匹配首次,而后者可以匹配所有可能的值


string <- c('liushunxiang1989','zhangsan1234')

str_locate(string,'s')

str_locate(string,'n')

str_locate_all(string,'n')


一般将定位函数与str_sub函数搭配使用。


str_length(),字符长度函数,该函数类似于nchar()函数,但前者将NA返回为NA,而nchar则返回2

str_length(string)

string:需要计算长度的字符串对象


string <- c('LiuShunxiang','1989-07-17',NA)

str_length(string)

nchar(string)



str_c(),将多个字符串连接为单个字符串

str_c(..., sep = "", collapse = NULL)

...:一个或多个字符向量

sep:字符串之间的连接符,功能类似于paste()函数

collapse:如果是向量之间的连接,collapse的作用与sep一样,只不过此时sep无效


str_c(c(1989,07,17), sep = '-')  #使用sep

str_c(c(1989,07,17), collapse = '-')  #使用collapse

str_c('x',c(1:10),':')



str_dup(),重复字符串

str_dup(string, times)

string:需要重复处理的字符串

times:指定重复的次数


fruit <- c("apple", "pear", "banana")

str_dup(fruit, 2)

str_dup(fruit, 1:3)

str_c("ba", str_dup("na", 0:5))



str_detect(),检测函数,用于检测字符串中是否存在某种匹配模式

str_detect(string, pattern)

string:检测的字符串对象

pattern:检测模式,可以是正则表达式


string <- c('LiuShunxiang','Zhangsan','Philips1990')

str_detect(string,'^L')

str_detect(string,'\\d')

str_detect(string,'[a-zA-Z0-9]')



str_count(),计数能够匹配上的字符个数

str_count(string, pattern = "")

string:需要处理的字符串对象

pattern:指定匹配的模式,默认为"",计算每个字符串的长度


string <- c('LiuShunxiang','Zhangsan','Philips1990')

str_count(string,'i')

str_count(string,'\\d')

str_count(string)


下期将给大家介绍数据挖掘包caret。


每天进步一点点2015

学习与分享,取长补短,关注小号!


      长按识别二维码 马上关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存