数据小魔方

其他

R语言网络数据抓取的又一个难题,终于攻破了!

http://www.linkedin.com/pulse/web-data-acquisition-structure-rcurl-request-part-2-roberto-palloni
2017年11月12日
其他

R语言数据清洗实战——高效list解析方案

如果你对R语言的list结构非常熟悉,又熟练控制流等函数的操作,自然可以通过构建循环来完成目标数据的提取。但是在数据量大、结构及其复杂的情形下,自建循环无论是性能还是代码量上都很不经济。
2017年11月11日
其他

左手用R右手Python系列——循环中的错误异常规避

本案例目标网址,今日头条的头条指数行业报告,全都是pdf格式的,需要先抓包获取PDF文件地址,之后我会随机抽取其中5个地址(因为PDF下载要看网速的,特别慢),然后将其中两个地址设置为不存在地址。
2017年11月8日
其他

左手用R右手Python系列——异常捕获与容错处理

tryCatch函数拥有类似Python中的try/expect那样相对完整的容错处理机制。一个完整的tryCatch容错函数,一般具有以下结构:
2017年11月7日
其他

主题Give me 5! 真的来了!双十一5天精彩Free微课直播,血拼之余为你补元气!

微课直播群人满,请加管理员微信:xtechday(请注明:公司+姓名+行业)
2017年11月6日
其他

Python数据抓取与可视化实战——网易云课堂人工智能与大数据板块课程实战

myresult.columns sum(myresult.lectorName==myresult.provider)/len(myresult)0.34639696586599239import
2017年11月5日
其他

商务图表案例——仿经济学人分组漏斗图~

今天看到一个看着挺养眼的经济学人图表案例,于是职业病爆发了,用ggplot2按照自己的思路写了一遍。现在把代码思路分享给大家!
2017年11月1日
其他

左手用R右手Python系列——任务进度管理

后来经过搜索,还真让我发现了解决方法。今天给大家介绍两个包,这两个包可以做任务任务处理、进程处理工作,编写一些简易的交互界面。
2017年10月31日
其他

左右用R右手Pyhon系列——趣直播课程抓取实战

本文将以趣直播课程信息数据抓取为例,展示如何使用RCurl进行结合浏览器抓包操作进行简易数据抓取。
2017年10月29日
其他

用R语言照葫芦画瓢撸了一个简易代理~

爬虫的入门也算有了一点儿小小的心得,下一步计划在不断练习巩固现有知识的同时、对服务器的反反爬进行探索,这里涉及到如何使用随机agent、如何构造匿名代理IP以及如何使用多进程,要走的路还有很长。
2017年10月28日
其他

左手用R右手Python——CSS网页解析实战

myresult=data.frame(title,subtitle,author,category,price,rating,eveluate_nums)
2017年10月27日
其他

R语言数据抓取实战——RCurl+XML组合与XPath解析

author_text=subtitle_text=eveluate_nums_text=rating_text=price_text=rep('',length)
2017年10月26日
其他

Python网络数据抓取实战——Xpath解析豆瓣书评

print(i+":"+str(len(m))) title:39subtitle:39author:39category:39price:39rating:39eveluate_nums:39
2017年10月25日
其他

左手用R右手Python系列16——XPath与网页解析库

本文演示的目标xml文件是我的个人博客:博客地址——raindu.com,选择的页面是博客rss源文件,是一个.xml格式的文件,内容主要包含博客发布过的文章名称、分类、标签、阅读量发布日期等
2017年10月21日
其他

左手用R右手Python系列——模拟登陆教务系统

最近在练习R语言与Python的网络数据抓取内容,遇到了烦人的验证码问题,走了很多弯路,最终总算解决了。
2017年10月18日
其他

R语言数据清洗实战——复杂数据结构与list解析

as.data.frame()这份数据集将所有的课程list全部展开了,获取到了一个144*75的大数据框,但是其中有很多数据字段我们不需要的,或者说意义不大的。需要根据分析需要一点一点儿剔除掉。
2017年10月13日
其他

R语言爬虫实战——知乎live课程数据爬取实战

URL:https://api.zhihu.com/lives/homefeed?limit=10&offset=10&includes=live Request
2017年10月12日
其他

R语言数据清洗实战——世界濒危遗产地数据爬取案例

最近重复新翻阅R语言领域唯一一本关于网络数据采集的参考书——《基于R语言的自动数据收集》,开篇就是一个数据爬取的案例。
2017年10月7日
其他

R语言爬虫实战——网易云课堂数据分析课程板块数据爬取

打开F12键,定位到XHR,寻找以.josn结尾的请求文件。当你在它的右侧打开对应Preview菜单,可以看到它的json数据源并且,有大量很整齐的课程信息的时候,差不多就找对了。
2017年10月4日
其他

如何使用管道操作符优雅的书写R语言代码

3、当函数有不止一个位置参数(必备参数)时,且左侧传入的对象在右侧函数中不是位置排在第一个的,那么此种情况下必须显式声明该参数在右侧函数中所处的位置,并且使用“.”作为占位符占位。
2017年10月2日
其他

左手用R右手Python系列13——字符串处理与正则表达式

学习数据分析,掌握一些灵巧的分析工具可以使得数据清洗效率事半功倍,比如在处理非结构化的文本数据时,如果能够了解一下简单的正则表达式,那么你可以免去大量的冗余代码,效率那叫一个高。
2017年9月30日
其他

shiny动态仪表盘应用——中国世界自然文化遗产可视化案例

FALSE)%>% addMarkers(data=mydata,lng=~long,lat=~lat,popup=~label)leaflet动态效果请点击这里:
2017年9月25日
其他

左手用R右手Python系列12——空间数据可视化与数据地图

geo是地理信息系统的简写,geopandas是Python中用于处理空间地理信息数据的后起之秀(为什么是后起之秀呢,因为有个叫basemap的包,据说很难用,我还没有深入了解过呢)。
2017年9月21日
其他

网易云课堂Excel课程爬虫思路

由于即将毕业,马上进入职场,想来是时候需要巩固一下基本职场技能了,特别是Excel这种杀手级职场应用。
2017年9月17日
其他

【DataGirls-Excel BI实操】数据点亮缘分 动脑邂逅Mr.Right

数据可视化技能对于今天由数据驱动的经济发展非常重要。收集和分析数据只是第一步;要向客户或管理者有效表达你的结果,你需要以连贯和直观的方式呈现数据。使用图表可以使人脑可视化进而理解大量复杂数据。
2017年9月15日
其他

左手用R右手Python系列8——数据去重与缺失值处理

因为最近事情略多,最近更新的不勤了,但是学习的脚步不能停,一旦停下来,有些路就白走了,今天就盘点一下R语言和Python中常用于处理重复值、缺失值的函数。
2017年8月10日
其他

同时用R语言和Python爬取知乎美图

https://www.zhihu.com/question/35931586/answer/206258333
2017年8月7日
其他

对,你没看错,真的有这种操作~

但是鉴于多边形填充本身就比较复杂,再加上分面肯定能把大部分小伙伴儿绕晕,这里还是亲自实践一篇案例详细讲解一下实际用法。
2017年7月31日
其他

精美炫酷数据分析地图——简单几步轻松学会

通常我们在用地图展示数据的时候,并不是需要展示所有省份的数据,而是仅仅需要展示几个典型的省份,那么在编辑数据地图的时候,也可以只在地图上单独编辑那几个要显示数据的省份。
2017年7月27日
其他

你想要的地图素材资源,我都帮你整理好了~

也可以选择使用VBA驱动。(关于如何在Excel和PPT中使用VBA操纵数据地图,这一块内容国内刘万祥老师研究的很深入,它有一本《用地图说话》,完全是基于VBA操纵数据地图的,感兴趣可以了解下)。
2017年7月26日
其他

一份不容错过的Excel数据可视化宝典~

粗略的将剩余内容分成数据可视化基础(版式设计、字体基础、配色基础)、文档管理、Excel工具配置及插件、Excel函数及数据分析、Excel图表可视化、商务智能工具。
2017年7月25日
其他

不用编程,教你轻松搞定数据地图

解析完成之后,点击输出菜单输出文本。因为输出的经纬度表格包含很多空白字段,需要全部清除,只留下地址,经纬度信息,完成之后,再原始表中利用Vlookup函数把新解析的经纬度地址匹配过去。
2017年7月22日
其他

Excel 有哪些可能需要熟练掌握而很多人不会的技能?

由于本公众号开通历史较早(15年末),如今已经积累了约450+的推送文章,而我的自动回复设定仅设定了早期的100多篇推送的自动回复代码,新用户看翻历史文章又极为不便,之后会做几期专门的文章汇总链接。
2017年7月19日
其他

如何七周成为数据分析师

Excel的图表可以100%完成上面的图形要求,但这只是基础。后续的进阶可视化,势必要用到编程绘制。为什么?比如常见的多元分析,你能用Excel很轻松的完成?但是在IPython只需要一行代码。
2017年7月18日
其他

给R语言初学者的几个建议~

而对于R语言的数据可视化方向来讲,则稍有不同。数据可视化确实并不十分依赖数学(除了专门用于算法呈现的图形之外,很少有需要大量运算的),但是他高度依赖图形语法,依赖可视化视觉呈现理念。
2017年7月14日
其他

一言不合就爬虫系列之——爬取小姐姐的秒拍MV

之前已经说过了,视频地址链接并非唯一的手段,因为视频的中的id在好几个属性值里面都有包含,所有我们只需任意抓一个属性值,通过观察原始视频地址进行链接的拼接即可。
2017年7月12日
其他

左手用R右手Python系列——因子变量与分类重编码

通常意义上,按照其所描述的维度实际意义,因子变量一般又可细分为无序因子(类别之间没有特定顺序,水平相等)和有序因子(类别中间存在某种约定俗成的顺序,如年龄段、职称、学历、体重等)。
2017年7月10日
其他

让执着成为一种习惯——仿网易数独玫瑰气泡图

图表整体难度中等,使用ggplot2来写代码,主要考察关于极坐标转换与应用。(ggplot2系统中,两个较为高阶的用法分别为:极坐标系、地理空间的多边形填充)。
2017年7月6日
其他

这么牛X的包,一般人我不告诉他!!!

柱形图、饼图等都算这一类),但是这里的分面功能做的更加彻底,作者还是遵循惯例,将这种基于地理信息分面的可视化功能对接了ggplot2,并以分面函数facet_geo()的形式呈现。
2017年7月4日
其他

左手用R右手Python系列——数据塑型与长宽转换

不会跟大家啰嗦太多每一个函数的详细参数,只列出那些参数中的必要设定,总体以简单实用为原则。如若需要详细了解每一个函数的内部参数,还是需要自己查阅官方文档。
2017年7月2日
其他

重要的是图表思维,而不是工具

好在我学习R语言之前,就已经利用Excel临摹了大量的高难度信息图,这一点可视化素养的积累,再结合对ggplot2勤加练习获得的图感,分分钟做出一副自己喜欢的作品,已经不在话下了。
2017年6月29日
其他

左手用R右手Python系列——数据合并与追加

针对数据合并与追加,R与Python中都有对应的函数可以快速完成需求,根据合并与追加的使用场景,这里我将本文内容分成三部分:
2017年6月27日
其他

左右用R右手Python系列——字符串格式化输出

学习Python不到一个月,虽然学的很渣,但是还是想通过这种途径分享自己的学习心得,毕竟当初学习R语言也是这么走过来的。
2017年6月24日
其他

竟然是一个升级版的数据透视表,Tableau真的没有那么神秘~

在R语言中,这种多维数据集的呈现使用的技术叫做分面,其实跟以上规则是一样的,都是采用维度粒度间的粗细进行横纵布局,力图保留原始维度粒度层级间关系的基础上,聚焦于最细粒度间数据间真实关系的探索。
2017年6月22日
其他

那些培训师都不曾告诉你的关于Excel图表的秘密~

尽管Excel不知道丢失的维度的具体水平及名称,可是改变不了原始数据是一个二维表这样一个事实,因而还是给丢失的维度信息在图表中补全了,但是是通过默认的系列1、系列2、系列3……等方式来弥补的。
2017年6月20日
其他

Word天呀,气泡图居然还有这种操作~

虽然看起来,它与普通气泡图比起来非常相似,但是实质上数据信息含量已经大相径庭,气泡图实际上使用了三个指标变量,而气泡云图仅适用了两个(而且仅有大小变量是数值型的)。
2017年6月19日
其他

关于数据地图的几个遗留问题解决方案

geom_polygon(aes(x=long,y=lat,group=group),fill="grey95",col="black")+
2017年6月18日
其他

leaflet的小搭档leaflet.minicharts来了,从此动态地图又多了一些乐趣~~~

本文内容取材自leaflet.minicharts包官方主页的案例介绍,本篇案例虽然是关于leaflet在线地图的辅助包,但是该包的出现对于leaflet生态系统来说,确是有着划时代的意义。
2017年6月17日
其他

Excel依然是一款强大的数据可视化利器~

以上就是Excel中图表构建原理的大致过程,而除Excel之外的数据可视化产品,基本上都是使用一维表结构(长数据)来构建可视化图形的。其中因子变量(即通常意义上的分类变量)充当着至关重要的作用。
2017年6月15日
其他

学习R语言我都做了那些有趣的事情!!!

虽然一直学的很专注(一直埋头在可视化的小圈子了,总感觉这样是停留在舒适区,也许外面的风景会更好),但是专注有专注的好处,就是每一个细节都有机会做的更好!
2017年6月13日