R语言抓取链家网数据

2016-12-20 章节 R语言中文社区

今天看到有人用Python爬取了链家网成都站的楼盘信息，我尝试用R做了同样的事情，具体代码如下：

library(rvest)
url0 <- 'http://cd.fang.lianjia.com/loupan/'
name=area=price=type=address=status=NULL
for(i in 1:10)
{
url <- paste(url0,"pg",i,sep = '')
web <- read_html(url)
name <- c(name,web %>% html_nodes('div.info-panel') %>%
              html_nodes('a') %>% html_text())
address <- c(address,web %>% html_nodes('div.info-panel') %>%
                 html_nodes('div.where') %>% html_nodes('span.region') %>%
                 html_text())
b=web %>% html_nodes('div.info-panel') %>% html_nodes('div.area')
are=rep(0,length(b))
for (i in 1:length(b))
{
    if (str_length(b[i]) > 60){
     are[i] = b[i]%>% html_nodes('span') %>% html_text()
    }else{
      are[i] = 0
    }
}
area=c(area,ifelse(are=='0','0',unlist(str_extract(are,'[0-9]+~[0-9]+|[0-9]+'))))
a <- web %>% html_nodes('div.info-panel') %>% html_nodes('div.average')
price=rep(0,length(a))
for (i in 1:length(a))
{
    if (str_length(a[i]) > 100){
      price[i] = a[i]%>% html_nodes('span.num') %>% html_text()
    }else{
      price[i] = 0
    }
}
price=c(price,price)
type <-c(type, web %>% html_nodes('div.info-panel') %>%
             html_nodes('div.type') %>% html_nodes('span.live') %>% html_text())
status <-c(status, web %>% html_nodes('div.info-panel') %>%
               html_nodes('div.type') %>% html_nodes('span.onsold') %>% html_text())
}
data=data.frame(name,address,area,price=as.numeric(price),type,status)
DT::datatable(data)

部分结果如下

然后又爬取了北京、上海、深圳、广州等17个城市的新建楼盘，然后进行了分析

#雷达图

#绘制面积图

##条形图

##层次聚类

##楼盘在哪里（有些坐标可能有误，但总体趋势还行）

公众号回复：链接代码，即可获取下载链接

如需转载请联系EasyCharts团队！

号外：12月22日周四晚，韦玮老师主讲《Spark网站流量异常大规模检测案例实战》

报名方式：扫描下方二维码 | 阅读原文

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

R语言抓取链家网数据

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

生成图片，分享到微信朋友圈

R语言抓取链家网数据

您可能也对以下帖子感兴趣