查看原文
其他

同花顺股票分数可视化 | R爬虫&可视化第3季

徐麟 R语言中文社区 2019-04-22

作者:徐麟,数据分析师,就职于上海唯品会。热爱数据挖掘和分析,喜欢用R、Python玩点不一样的数据。个人公众号:数据森麟(微信ID:shujusenlin) 


往期回顾:

卫视实时收视率对比 | R爬虫&可视化第1季

当古代文人参加“中国好诗人”节目 | R爬虫&可视化第2季

前言

前两期的R爬虫&可视化专题中,与大家分别分享了关于电视台收视率以及诗词的爬取和可视化的内容,得到了大家许多的反馈,希望在今后的内容中能够不断提高。


第三期的专题中,会与大家聊聊非常火的股市,关于本期内容,引用一句非常经典的话“我们不生产数据,我们只是数据的搬运工”。影响股市大盘涨跌的因素非常多,到了个股走势就更加扑朔迷离,所谓“股市有风险,投资需谨慎”,本文只是与大家分享一些爬虫&可视化的内容,不能作为大家选股的依据。

相关Package

  1. ## 字符串处理、汇总数据

  2. library(plyr)

  3. library(stringr)

  4. library(sqldf)

  5. ## 爬虫相关

  6. library(RCurl)

  7. library(XML)

  8. ## 读取数据

  9. library(data.table)

  10. ## 数据可视化

  11. library(ggplot2)

  12. library(ggthemes)

  13. library(ggradar)

  14. ## markdown 文件生成

  15. library(knitr)

  16. library(rmarkdown)

爬取数据

我们爬取了同花顺当天对股票的打分,同花顺作为一个专业机构,每天对于个股都会有技术面、资金面、消息面、行业面、基本面等五个方面的打分。我们会分别爬取这五部分的分数,并计算其总分。


爬取代码如下:

  1. url <- paste('http://doctor.10jqka.com.cn/',substr(point$rcode[i],1,6),'/',sep='')

  2. temp <- getURL(url,.encoding='utf-8')

  3. doc <-htmlParse(temp)

  4. points <- getNodeSet(doc,'//div[@class="chart_base"]/

  5.                  div[@class="column_3d"]/div[@class="label"]')

  6. points <- sapply(points,xmlValue)

  7. point$technical[i] <- as.numeric(substr(points[1],1,3))

  8. point$funds[i] <- as.numeric(substr(points[2],1,3))

  9. point$message[i] <- as.numeric(substr(points[3],1,3))

  10. point$trade[i] <- as.numeric(substr(points[4],1,3))

  11. point$basic[i] <- as.numeric(substr(points[5],1,3))

  12. point$level[i] <-sapply(getNodeSet(doc,'//span[@class="cur"]'),xmlValue)


数据展示

首先看一下各主要行业分数的盒型图:

  1. ggplot(data=point_total,aes(x=area,y=total_num))+geom_boxplot()+

  2.   theme_economist()+ggtitle("主要行业得分分布图")+

  3.   theme(axis.text.x = element_text(size=7.85),

  4.         plot.title = element_text(hjust=0.5,size=25))



针对某一行业,我们选择其中一部分对比其雷达图:

  1. p <- ggradar(plot.data = subset(point_total,select=c('name','技术面','资金面',

  2.             '消息面','行业面','基本面'))[1:5,],grid.max=10,grid.mid=5,

  3.             legend.text.size=7,background.circle.transparency = 0)+

  4.             theme_wsj()+theme(panel.grid = element_blank(),

  5.                               axis.line = element_blank(),

  6.                               axis.text = element_blank())

  7. print(p)



MARKDOWN输出

下面我们用RMarkdown实现将多只股票的分数变化面积图批量输出的功能:

  1. ```{r pressure, echo=FALSE,fig.width=15,fig.height=5}

  2. library(reshape2)

  3. library(ggplot2)

  4. library(ggthemes)

  5. library(stringr)

  6. point_total <- read.csv('D:/index/point_total.csv',

  7.                     header = TRUE)

  8. point_total$name <- gsub(" ","",point_total$name)

  9. point_total <- subset(point_total,name %in% c(

  10.  '****','****','****','****','****','****','****'

  11. ))

  12. point_total$dt <- substr(point_total$dt,1,5)

  13. index_name <- unique(point_total$name)

  14. for(i in 1:length(index_name)){

  15.  point = subset(point_total,name == index_name[i])

  16.    print(gsub(" ","",as.character(index_name[i])))

  17.    names(point)[2:6] <- c('技术面','资金面','消息面','行业面','基本面')

  18.    point$sum_point <- apply(point[,2:6],1,sum)

  19.    point$com1 <- paste(point$sum_point,sep='')

  20.    point$com2 <- paste(point$paiming,sep='')

  21.    point_view <- melt(point[,c(2:6,9)],id.vars = 'dt',variable.name = '分面')

  22.    p <- ggplot()+geom_area(aes(x=dt,y=value,fill=分面,group=分面),

  23.                            data=point_view)+

  24.      geom_text(aes(x=dt,y=sum_point+2,label=com2),data=point,size=4)+

  25.      geom_text(aes(x=dt,y=sum_point+4,label=com1),data=point,size=4)+

  26.        theme_wsj()+theme(

  27.        panel.grid.major = element_blank()

  28.      )

  29.    print(p)

  30. }

  31. ```


输出效果如下:


R针对股票可以做更加细致的分析,如quantmod包可以直接获得股票的每日收盘价等重要信息。比如如下两行代码就可以画出让人望尘莫及,买1手都要斥巨资的贵州茅台的K线图(需要注意的是R中使用的是美股K线图,红绿表示与A股相反)

  1. getSymbols("600519.ss",src="yahoo",from="2017-01-01", to='2017-10-30')  

  2. chartSeries(`600519.SS`)


因为本人并不炒股,对股市没有仔细的研究,所以本文只是做一些爬取&可视化的内容,希望对股票有深入研究的朋友能够与我交流,共同学习。


公众号后台回复关键字即可学习

回复 R               R语言快速入门免费视频 
回复 统计          统计方法及其在R中的实现
回复 用户画像   民生银行客户画像搭建与应用 
回复 大数据      大数据系列免费视频教程
回复 可视化      利用R语言做数据可视化
回复 数据挖掘   数据挖掘算法原理解释与应用
回复 机器学习   R&Python机器学习入门 

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存