Quantcast

袁伟时:中国的奴性和戾气从哪里来?

“芯片大学”虚晃一枪,人才断层问题不能跑步解决

两大中国首富双双被重挫-释放信号强烈

民间帝王赖小民和性感女星舒淇与许晴

女性高潮时为什么会“喷水”?

Facebook Twitter RSS

分享到微信朋友圈

点击图标下载本文截图到手机
即可分享到朋友圈。如何使用?

自由微信安卓APP发布,立即下载!

表哥有话讲

基于R的混合线性模型的实现

当遇到需削减同水平位置的随机因子时(比如两个随机因子需要舍弃一个时),应考虑所有情况,并将其和零模型作比较;优先保留与零模型有显著差异的模型;当比较都不显著时,优先考虑保留p较小的模型。
2018年12月24日

R语言ETL工程系列:总论

本篇是R语言ETL工程系列的第一篇,这个系列我们将讨论如何使数据预处理简洁便捷,本系列的宗旨是让这个过程显得更加轻松,让初学者快速入门这些基本概念和操作。
2018年12月14日

R与Python手牵手:多格式文件导入与爬虫

注意一定要定义参数file,否则默认条件下,fromJSON会把输入当成是json文本然后进行转化,而不是按照路径去找文件,读取文件后再转化。
2018年12月5日

R与Python手牵手:数据探索性分析案例展示

data1[7],data1[8],data1[9],chrint(data1[10]),chrint(data1[11]),chrint(data1[12]),data1[13],\
2018年11月28日

R与Python手牵手:数据的分组排序

pd.read_csv('G:/Py/introduction-datascience-python-book-master/files/ch02/educ_figdp_1_Data.csv',
2018年11月14日

R与Python手牵手:数据框的构建、读取与基本描述

pd.read_csv('G:/Py/introduction-datascience-python-book-master/files/ch02/educ_figdp_1_Data.csv',
2018年11月5日

R与Python手牵手:数据科学导论系列(包的载入)

,就是,把pandas模块导入(import)进来,然后在我们的环境中,用pd来调用pandas模块里面的内容。或者这么理解,我们把pandas大神请进来了,但是在我们的组织里面,给他的代号是pd.
2018年11月1日

无缝对接Spark与R:Sparklyr系列—探讨属于数据科学家的Spark

然后,让我们放一点数据到Spark中。sparklyr和dplyr都有可以把R环境中数据框变量放进Spark的方法,我们都展示了一下。这里用base里面自带的两个数据集:cars和iris.
2018年10月24日

R语言二分类问题案例分析:以泰坦尼克号沉船为例

如果数据中有一些属性含有大量缺失值,那么它对预测的贡献几乎为零,甚至具有不良的干扰。当然有的时候缺和不缺本来就是一种信息,但是这里我们无法深入判断。首先我们先看看是否有缺失值,有的话缺多少?
2018年10月18日

精心整理 | R语言中文社区历史文章整理(类型篇)

ggplot2:可视化设计师的神器,了解一下【译】R包介绍:Online
2018年7月7日

精心整理 | R语言中文社区历史文章合集(作者篇)

是国内最大的R语言学习平台。近20万R语言爱好者聚集地,欢迎投稿分享!
2018年7月3日

精选 | 2018年5月R新包推荐

本文选摘了40个R包加以功能简述,有需要的爱好者可以自行下载帮助文档并安装使用。本文主要包括以下几个类别:计算方法、数据、数据科学、金融、数学、机器学习、音乐、科学、统计、时间序列、工具和可视化等。
2018年6月28日

R语言笔记2:读写数据所需的主要函数、与外部环境交互

但是当你只想读取文件的一部分的话,联系是有必要的。例如,建立联系后,使用readLines函数读取文件前10行:
2018年6月26日

深入探讨散点图系列

参数回归模型假定f的形式是已知的。曲线拟合(Curvefitting)是指选择适当的曲线类型来拟合观测数据,并用拟合的曲线方程分析两变量间的关系。绘图软件一般使用最小二乘法(Leastsquare
2018年6月26日

Lesson 06 for Plotting in R for Biologists

fill=type))+geom_violin(adjust=0.2)+ylim(0,1000)+guides(fill=FALSE)#adjust调整分辨率,默认为1,值越低,分辨率越高
2018年6月25日

Lesson 05 for Plotting in R for Biologists

ggplot默认调用的是rainbpw调色板,颜色容易让人误解,不好分辨,但是其他的调色板颜色数量是不足的。这时可以通过将好几个palette合并在一起组成一个新的palette。
2018年6月23日

五步构建经营指标,拒绝分析不接地气

然而大妈就是很老辣的,大妈知道想做生意就得真的和做生意的人交流,而不是在网上听键委们闲扯淡。所以大妈想卖煎饼的话肯定是直接和自己做煎饼的二姐去学。但是这里就涉及一个问题:如何确认这个生意是可以做的?
2018年6月22日

三种方法在地图上绘制网络图

geom_point(aes(x=lon,y=lat,size=weight),shape=21,fill="white",color="black",stroke=0.5)+
2018年6月21日

tidyverse —— readxl包

一个提醒,因为本包不是tidyverse的核心包,所以,不像readr包一样,library(tidyverse)后就可以直接使用,还是要单独载入的。
2018年6月20日

个人生活的量化分析(三):考研英语初探

本人目前正处于考研备考阶段,考研英语是考研中重要部分之一,所以每天在英语上花费了大量的时间。随着2005年-2014年的真题的客观题(客观题部分)一刷已经完成,第一阶段的英语复习也暂告一段落。
2018年6月20日

统计挖掘那些事(六)——强大的逻辑回归(理论+案例)

该数据集是某地区的个人收入调查分析,包含32561条记录,其中目标变量是收入水平(分别是<=50k以及>50k),其他自变量包括年龄,受教育时间,性别,资产净增,资产损失,一周工作时间。
2018年6月19日

独家分享--48页PPT解密数据可视化!

香港理工大学助理研究员,Excel教程《Excel数据之美》作者;Excel图表插件EasyCharts开发者,十余篇SCI论文的水货达人;微信公众号EasyCharts联合创始人;预计
2018年6月19日

构建自己的地理信息空间数据库及与客户端简单交互(内含彩蛋)

写入空间数据时,一般要以sp格式写入(就是之前用的最多的,maptools、rgdal包导入的默认格式),但是好在sf包中提供了一键转化sf和sp对象的函数,所以这里的写入数据格式转换非常高效。
2018年6月18日

从代码到300优质客户,用户画像在销售的实战应用

艺术照。就是照骗,P图P的连亲妈都不认识,但是反映了你内心最期待的画面。当需要做品牌推广或者产品植入的时候,是最需要这种能够透过现象,触及用户情感的用户画像。
2018年6月16日

时间序列深度学习:状态 LSTM 模型预测太阳黑子(中)

我们选择的设置似乎产生了一个不错的模型,可以捕捉到数据中的趋势。预测在下一个上升趋势前抢跑了,但总体上好过了我的预期。现在,我们需要通过回测来查看随着时间推移的真实表现!
2018年6月15日

时间序列深度学习:状态 LSTM 模型预测太阳黑子(下)

模型对于给定时间序列是否适用的方法。我们还揭示了时间序列模型的准确性应如何通过回测来进行基准测试,这种策略保持了时间序列的连续性,可用于时间序列数据的交叉验证。
2018年6月15日

时间序列深度学习:状态 LSTM 模型预测太阳黑子(上)

LSTM(长短期记忆)的特殊类型深度学习模型,该模型对涉及自相关性的序列预测问题很有用。我们分析了一个名为“太阳黑子”的著名历史数据集(太阳黑子是指太阳表面形成黑点的太阳现象)。我们将展示如何使用
2018年6月15日

统计挖掘那些事(五)--(理论+案例)如何通俗地理解极大似然估计?

值得注意的是,在极大似然估计中,我们是假定了随机误差需要服从正态分布,这也提示我们,对于极大似然估计,我们的结果是对我们对于随机变量所假设的概率分布有依赖性的,因此也就要求我们要有一定的先验知识。
2018年6月14日

你所知的最有价值(最有效)的思维方法是什么?

和how是需要一对其他分析方法往里填充的。5w2h就七个格子七句话,sowt就四个格子四句话,这是学《市场营销》的本科生交课堂作业的方式哈。有机会可以拿一个具体案例和做数据分析的同学们分享。
2018年6月14日

基于ggplot2网络可视化(二)

library(ggplot2)library(GGally)library(geomnet)library(ggnetwork)library(network)
2018年6月13日

ggplot2:可视化设计师的神器,了解一下

首先,好上手。跟python比起来,适合没有学过编程语言的人,但对有编程背景的人来说可能会觉得R的代码逻辑很奇怪。ggplot2更是R语言里面,最好学习的包,可能有之一😂。在《R
2018年6月13日

为什么这么多文科生想转行做 IT?

作者:陈老师,在咨询行业打拼了9年,在如何诊断经营问题、建立分析体系、解决专项问题上有超过30个大型项目积累与实战,天善智能特邀专家。
2018年6月12日

ggplot2都有哪些使用不多但是却异常强大的图层函数

它的思路是我们对象看成是若干个闭合多边形,每一个闭合多边形通过一组有序点坐标进行首尾连接,之后再按照事物真实的隶属关系对group(闭合多边形)进行二次分组,按照有意义的组别进行颜色映射。
2018年6月11日

文本主题发现(一)-- 数据预处理

c('Accept'='text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
2018年6月11日

天气太热业绩差,除了设坛求雨外,数据分析师还能干啥?

实际上,陈老师就做出全年节日清单给到过销售部门,做法相当简单:节日时间—热销产品SKU—对应业绩。但相当受销售欢迎,因为确实非常实用啊。这样通过简单分析能取得信任和口碑的事情,做的越多越好。
2018年6月10日

基于ggplot2的网络可视化(1)

library(ggplot2)library(GGally)library(geomnet)library(ggnetwork)library(“network”)
2018年6月9日

R 语言之数据分析「Resampling」

个受试者的分数的分配应该是任意的。这么讲你可能还是不太理解,其实在原假设成立的前提下,我们把两种方案的总体视为等价的,那么我们同样也可将这两个方案的总体视为同一个总体,这样的话,10
2018年6月8日

身为数据分析师,却被业务当做取数机?

被业务呼来喝去的跑数据,是做数据分析的同学一个极大的痛点。出力不讨好不说,自己还没啥成长。如果扒皮抽筋看真相,你会发现这压根就不是个技术问题,而是政治地位的问题。是数据分析到底在公司里算老几的问题。
2018年6月7日

Lesson 04 for Plotting in R for Biologists

是国内最大的R语言学习平台。近20万R语言爱好者聚集地,欢迎投稿分享!
2018年6月6日

统计挖掘那些事(四)-9个相关R先生的故事(理论+动手案例)

如我们在F检验中所讨论的,在整个分解式中,回归平方和(SSR)反映的是能够通过自变量x解释的部分,因此非常直观地,我们可以认定回归平方和所占的比重越大,则残差平方和越小,就越能证明回归的效果越好。
2018年6月5日

学习数学到底有什么用?

补充:评论区还有同学不信,给外地的同学解释一下,因为珠江新城是广州的CBD,所以一听到CBD,就有同学自然而然的不淡定了。是滴,CBD怎么可能买的起啊!然鹅,大家猜猜哪个是我买的??
2018年6月5日

tidyverse —— readr包

读是读出来了,但是根本不按套路来,七个变量挤成一个,虽然有办法拆开,但还是算是失败了。因为对于几个G的数据来说,base包不行。太弱了,配不上我。
2018年6月4日

什么样的领导最难搞定?

只要领导知道自己想要什么,就容易搞掂很多了。以我9年来对多个行业形形色色的领导的观察,发现其实可以用两个简单的维度来区分这些有目标的领导:
2018年6月3日

Lesson 02&03 for Plotting in R for Biologists

Lesson02主要讲了如何从Excel导入数据以及如何从UCSC、ENSEMBL和RENCODE上下载数据,因此我就将Lesson02并入Lesson03一起讲了。
2018年6月2日

脏数据-数据量纲差异

stddata[i,j]<-((Data[i,j]-(min(Data[,j])))/(max(Data[,j])-min(Data[,j])))
2018年6月1日

R语言ggplot2地理信息可视化(下)

Map)是一种通过在地理背景上绘制相同大小的点来表示数据在地理空间上分布的方法。点数据描述的对象是地理空间中离散的点,具有经度和纬度的坐标,但是不具备大小的信息,比如某区域内的餐馆、公司分布等。
2018年5月31日

如何着手分析一个行业?

分享一个教科书式的方法,人人都可以学习。一提到教科书式方法,之前几位答主都有意绕开了。实际上教科书式的方法比大家讲的土办法还要简单。只不过是,教科书也是分给学生看的,还是给企业里的人看的。
2018年5月31日

开发基于GUI的R包(2)

这是一个rmarkdown文档,你可以编辑描述自己的package,当然也可以使用pkgdown包(类似于python中的mkdocs)为自己的包写一个在线的说明文档。
2018年5月30日

那些河南美食背后,深藏的经营道理

水煎包:类似上海的生煎包、陕西的锅贴、武汉的煎饺,但是比这几个都好吃。因为是两面煎的。师傅把形如饺子的包子一列列放在平底锅里,用一个细长的铲子铲起来翻面,两面都能煎的又酥又香。然而现在已基本绝迹。
2018年5月30日

做了那么多营销,为什么没有效果?

A类自然购买的可能性就很高(有购买力,促销敏感,高关联度),因此派的券额度相对较小,以信息推送为主。A类用户名单直接派给各级渠道,除了短信外要求渠道主动联系顾客,邀约顾客参加。
2018年5月29日

R语言ggplot2地理信息可视化

本次演讲只讲解地理空间数据可视化部分,此部分也被收录在我的新书《R语言数据可视化之美》中,敬请期待。
2018年5月28日

开发基于GUI的R包(1)

想要了解更多的关于R实现GUI应用可以参考gWidgets和gWidgets2的详细的说明文档,为了让大家看明白我会对下面的每一行代码进行注释。OK,各位看官请后退,我要贴代码了:
2018年5月28日

【译】R包介绍:Online Random Forest

install.packages("devtools")devtools::install_github("ZJUguquan/OnlineRandomForest")
2018年5月27日

精选 | 2018年4月R新包推荐

提供运行混合效果模型的功能,其中包括每个级别的权重。遵循Rabe-Hesketh等人所提出的方法(2006),利用自适应正交的方法进行模型训练.
2018年5月26日

统计挖掘那些事(三)-超详尽回归分析指南(理论+动手案例)

如我们在F检验中所讨论的,在整个分解式中,回归平方和(SSR)反映的是能够通过自变量x解释的部分,因此非常直观地,我们可以认定回归平方和所占的比重越大,则残差平方和越小,就越能证明回归的效果越好。
2018年5月25日

老单位领导直属领导有恩,新公司薪水给的高,怎么选?

什么是真有恩,什么是假忽悠,有一个简单的标准可以判断:能量化的都是真的,“理想”“感情”“趋势”“未来”都是假的。有意思的是,大家往往对感情很敏感,情绪一起,就忘了算数,容易入套。
2018年5月25日

在公司里,数据分析师是如何帮助公司创收的?

所以你会发现,招数据分析高薪的基本都是乙方,或者甲方企业中的乙方部门(比如阿里数据银行、智能客服,虽然是阿里的项目但是还是作为乙方提供服务给其他公司的)因为在这里数据分析才是直接生产力。
2018年5月24日

一元(多元)线性回归分析之R语言实现

左上图:残差与拟合图,理论上散点应该散乱的分布在横线两侧,但是此图明显有一个曲线关系,说明我们的模型需要加入一个二次项(这一点从散点图亦可以看出来)。
2018年5月24日

R语言制作网页

其中ui用于控制页面的布局,server则是一种函数,用于构建或者重建在ui中展示的对象。现在不懂也没关系,下面我们会一步步地进行讲解。
2018年5月23日

一元(多元)线性回归分析之Excel实现

再看t检验,即对一元线性方程的截距项α和系数β进行检验,H0:α=0,可以看到P<0.01,拒绝H0,说明α通过了t检验;同理,β也通过了t检验。
2018年5月23日

R语言实现统计分析——非参数假设检验

总体分布的卡方检验的原理是:如果从一个随机变量尤中随机抽取若干个观察样本,这些观察样本落在X的k个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k趋于无穷时,就近似服从X的总体分布。
2018年5月22日

词云一分钟了解周董的歌词

前段时间周董发布了一首新歌《不爱我就拉倒》被网友吐槽土味十足,这段时间有本科同学让我帮忙做词云,所以借此机会把代码记录下了,顺便借周董的20首歌词做下词云。
2018年5月21日

脱单路径大分析!科学拯救单身的你

以大多数单身汉的努力程度之低,还谈不上学恋爱技巧。单身汉们缺的不是女朋友,而是女性朋友。在手机里找一个能畅聊半小时的女生,比在沙漠里找到一池水还难。长期缺乏和女生聊天的后果,就是无法正常反应:
2018年5月21日

基于随机森林的分类与回归

首先,我们先注意一下随机森林回归和随机森林分类的差别:(1)默认mtry是p/3而不是p1/2,其中p表示预测变量数(2)默认节点大小为5而不是1(3)只有一个测量变量的重要性。
2018年5月20日

你听过管理者最无耻的一句话是什么?

作者:陈老师,在咨询行业打拼了9年,在如何诊断经营问题、建立分析体系、解决专项问题上有超过30个大型项目积累与实战,天善智能特邀专家。
2018年5月19日

R语言绘制条形图

“http://www.sr.bham.ac.uk/~ajrs/R/datasets“file
2018年5月18日

统计挖掘的一些事一些情(二)——回归分析(附数据)

实际上,无论是日常的统计学习还是挖掘学习中,回归分析都可以算是大家最早接触,也是整个体系当中相当重要的一个内容了,所以咱们这期就从回归分析说起吧。
2018年5月17日

如何在业余时学数据分析?

结构分析法(杜邦分析法简化版)帮我们看清楚问题结构,看到出问题的部分在整体中的位置、占比,这样可以理解问题的轻重。身价1个亿亏100万和身价20万借债又亏100万,肯定是两个层面的问题。
2018年5月17日

个人生活的量化分析(二):Apple健康数据分析

由于篇幅有限,在导入数据之前我已经用Excel对所有csv格式的数据做了「分列」的预先处理,并删除一些无用的列,保留了基本的数据;但这并不代表数据就已经可以完全拿来使用了,因此还需要进一步进行清洗。
2018年5月16日

统计挖掘的一些事一些情(一)

而对于无监督学习,则只有自变量x,而没有y。例如我们能够获得零售企业当中每个会员的行为信息,我们可能希望通过无监督学习的方法(聚类)把会员划分为不同的客户细分群体(粉丝客户群,注重性价比客户群)。
2018年5月15日

非常认真地完成现有工作,却得不到加薪待遇?

是滴,这就是努力有效化的第一个手段:清晰分工,量化目标。这八个字说起来轻巧,可很多在大企业工作的同学却结结实实的栽在这上边。或者打了太多杂,自己没成绩。或者工作不量化,体现不出价值。
2018年5月15日

R语言相关关系可视化函数梳理

用相关系数(pannel.cor)替代默认图形上三角的散点图,用直方图(pannel.hist)替代默认图形对角线的变量名称,用添加线性拟合线的散点图(panel.ls)代替默认图形下三角的散点图。
2018年5月14日

R语言构建层次分析模型不看一下吗~

1代表两个元素相比,具有相同的重要性;3代表两个元素相比,前者比后者稍重要;5代表两个元素相比,前者比后者明显重要;7代表两个元素相比,前者比后者极其重要;9代表两个元素相比,前者比后者强烈重要
2018年5月13日

那些小城里的分析大师们为什么发不了财?

最后,设定监控指标,计算投入产出。换行有风险,至少在换之前要有一定的积蓄。在一定范围内负担的起换行的投入,及新手入行开张阶段的生意冷淡期。挺得过去才考虑做,挺不过去就得想退路,或者再找个行当看看。
2018年5月12日

图像处理R包magick学习笔记

image_read("http://ov520p4qw.bkt.clouddn.com/ytlogos/170903/ha6Cchfk38.jpg?imageslim")
2018年5月11日

算法|决策树算法究竟说的是什么?

决策树这样的表达形式非常的直观且容易理解,一般地,一颗决策树是由一个根节点,若干个内部节点以及若干个叶子节点组成,根节点和内部节点代表相应的测试条件,而叶子节点则代表最终输出结果:
2018年5月10日

拒绝鸡汤,我要挣钱!用数据分析找到销售成功背后的真正秘密

最近总结出简单易记的原则,比如介绍135,跟进3721之类的,让销售团队去复制,就是分析助力小的终极形态了。连这个行业的销售规范都是你分析出来的,还有比这更能带动业绩的吗!还有比这更能体现能力的吗!
2018年5月10日

R语言笔记1:数据类型(向量、数组、矩阵、 列表和数据框)

Frames)是一种特殊的列表,其中所用元素长度都相等,列表中的每个元素都可以看作一列,每个元素的长度可以看作行数。
2018年5月9日

R 语言之数据分析高级方法「主成分分析」和「因子分析」

(写给初学者)(https://my.oschina.net/gujianhan/blog/225241#OSC_h2_1),建议跟着思索一遍,对其底层算法有一点理解,在学习的时候更开心。
2018年5月9日

Excel图表快捷操作小技巧

要在形状、文本框或图表元素中显示工作表里单元格的内容,您可以将形状、文本框或图表元素链接到包含要显示数据的单元格。使用“照相机”命令,您还可以通过链接单元格区域到图片来显示单元格区域的内容。
2018年5月8日

商业分析能力是怎样炼成的?

这个机会叫弄死竞争对手。因为我只是广大乙方公司中很普通的一员。每次客户招标可能要看几份甚至十几份详细的方案。对面也是电脑E盘工作资料文件夹里收藏了几十G
2018年5月8日

个人生活的量化分析(一):时间管理

在做完前两步之后,大家也千万不要忽略了最最重要的一个步骤,查看缺失值和异常值,并对其进行处理;否则分析结果可能会有偏差,这里需要使用sum(is.na(time_data))来查看一下缺失值的数量。
2018年5月7日

边浪边学习的秘籍!不看又亏一个假期

有些同学会觉得不以为然:吃饭是刚需,煎饼很便宜,随便摆好了,摆了就有人买。好吧,吃饭的确是刚需,但吃路边摊上的东西就不一定了,吃大妈小摊的就更不一定了。大妈想要挣到一月3万煎饼钱,还真得动一番脑筋:
2018年5月7日

听了煎饼大妈忽悠,你也推着小车上路以后

怎么看,这个方案都无懈可击,虽然早上出门的早点,晚上回家晚点,但是收入颇丰啊!再说了,搞得跟个我在互联网公司上班,不是早上6点出门晚上10点到家一样!于是满怀希望,你凑齐小车出发咯!
2018年5月6日

R语言构建RFM模型了解一下~~~

min_max_scaler.fit_transform(salesRFM.loc[:,['Recency','Frequency','Monetary']].values)salesRFM
2018年5月5日

超级菜鸟怎么学习数据分析?

ending,拖拉机哥如愿离开内地三线城市到了魔都成为一名互联网数据分析师,薪酬翻了1.5倍。虽然在陈老师看来,他那个薪酬在三线城市不少了,但是人各有志,达到自己的目标就好。
2018年5月4日

精选 | 2018年3月R新包推荐

2018年3月份,共有约200个R新包收录于CRAN,本文选摘了其中40个新包加以功能简述,主要包括:计算方法、数据、数据科学、科学、统计、时间序列、工具和可视化等。希望有助于大家的学习!
2018年5月3日

Lesson 01 for Plotting in R for Biologists

这节课比较简单,没什么知识点,当然如果R语言没入门的话读个数据都困难重重,所以如果基础不太好的可以直接去youtube看视频,讲的很详细。
2018年5月2日

tidyverse —— dplyr包

前文提到tidyverse包很适合编程,是因为它适用引用函数quo()函数,即只引用而不计算表达式,它和base包中的quote()用法相似,但是多附带环境信息。这里就用quo()函数来求多值。
2018年4月28日

有哪些典型的「学生思维」?

这种时候的重点,就不是模型怎么怎么整,而是目前他们这家企业商品管理存在什么问题,我过往经验有多少能应用在他们这里。这时候去面试前看看黄成明老师的《数据化管理》都比看个《21天精通数据建模》管用。
2018年4月28日

R语言数据分析笔记——Cohort 存留分析

终于功夫不顾有心人,忙活了一天用R语言代码还原了这个Cohort分析的R语言版本,这里分享给大家,代码不佳之处,敬请见谅,只是一个demo,还没有做封装。
2018年4月27日

数据分析职场路上有困惑?不妨花几分钟来看看...

2.一个有趣的现象:为什么都叫数据分析部,不叫ESP部(Excel+SQL+Python部)
2018年4月26日

左手用R右手Python系列之——字符串格式化进阶

RainDu.在设置顺序参数时,pystr_format函数的优越之处在于,它真正实现了右侧待插入字符参数的批量化,即如果右侧传入的字符串参数如果有多个,你可以直接传入命名的向量或者列表。
2018年4月25日

上帝手中的骰子——无所不能的贝叶斯(下篇)

假设有N种可能的类别标记,即Y={c1,c2,...,cN},是将一个真实标记为的样本误分类为所产生的损失。基于后验概率可获得将样本x分类为所传声的期望损失——即在样本x上的条件风险:
2018年4月24日

R语言之数据分析高级方法「时间序列」

模型的相关资料我找到了,但是并没有看完和看懂,相对来说其思想确实有些复杂。而且最近买了《统计学方法》和《机器学习》两本书,发现自己的线性代数水平还很难看懂这些公式和算法推导,所以准备把《
2018年4月24日

R语言多任务处理与并行运算包——foreach

combine一致的流程,不过foreach比传统apply组函数的优越之处在于,它可以通过调用操作系统的多核运行性能来执行并行任务,这样特别是对于I/O密集型任务而言,可以大大节省代码执行效率。
2018年4月23日

R语言之高级数据分析「聚类分析」

质心:将两个类的质心之间的距离,视为两个类的距离。所谓质心就是一个类中的所有观测的平均向量(这里称为向量,是因为每一个观测都包含很多变量,所以我们把一个观测视为一个多维向量,维数由变量数决定)。5.
2018年4月20日

上帝手中的骰子——无所不能的贝叶斯(上篇)

贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,...是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有:
2018年4月19日

R语言学习笔记之——数据处理神器data.table

data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指,这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何,希望我的小米本能扛得住折腾~_~
2018年4月19日

ggplot2学习笔记之——ggplot2主题调整系统

这里澄清一下(也是参考ggplot2官网上的原文解释),theme_update()与theme_replace()函数都可以起到修改主题的作用,但是不同的是二者在修改主题的时候作用方式不同。
2018年4月17日

预测未来的神技——有趣的马尔科夫链

声学模型:利用HMM建模(隐马尔可夫模型),HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。
2018年4月17日

R语言可视化学习笔记之ggridges包

具体用法可以参考官方文档(https://cran.r-project.org/web/packages/ggridges/vignettes/introduction.html)
2018年4月16日

一款脑洞大开的表格可视化神器

是不是很神奇呀,一个小小的包竟然可以做这么有趣的事情,这种表格在财务数据、营销数据或者绩效数据表中是经常会用到的可视化形式,简单明了,非常醒目。
2018年4月13日

数据分析实例:企业需要什么样的数据分析人才?

从企业规模看,150人以上规模的企业更加适合新人进去锻炼,一方面企业已经完成了基本的数据体系架构,且越大的企业数据量级越大,另一方面,企业需要逐步培养强大的数据分析团队来支撑业务的增长。
2018年4月12日

ggplot2学习笔记——图例系统及其调整函数

ticks/draw.ulim/draw.llimbarwidth/barheight用于调整矩形色块的宽高属性,nbin控制颜色的分割区间(分割越多,过渡越自然),ticks控制是否显示刻度线。
2018年4月11日

R语言可视化学习笔记之gganimate包

gganimate包是ggplot2的扩展包,主要用于绘制动画。它在ggplot2的基础上了补充了一个美学映射frame,就像x,y,size,color,fill一样进行映射。
2018年4月10日

听说你想做一份高级的可视化图表?

兴趣方向:Excel商务图表,R语言数据可视化,地理信息数据可视化。每天会为您推送Excel商务图表、R语言可视化及数据可视化精彩案例。个人公众号:数据小魔方(微信ID:datamofang)
2018年4月9日

定量论文:探究「健康水平、婚姻状况」对幸福感的影响

对于「年龄变量」,原数据中以出生年份的形式(a301)给出;因此为了方便研究,粗略取2018减去出生年份作为年龄,并创建年龄变量;最后去掉出生年份的变量,使数据整洁。这里使用到的是mutate函数:
2018年4月5日

R | 对亚马逊新总部可能位置进行可视化

City.中的。metro_area这个变量或许有用,但是我们从数据中地理编码时也许会出错,因为它表示的范围太广。因此我们需要一个准确的城市名来对其进行地理编码。
2018年4月4日

数据分析实例:员工流失建模与预测

可以看出从预测的结果来看,销售代表/业务人员离开公司的可能性很高,平均超过了50%,这是为什么?这是否是行业性质决定还是岗位性质?人力资源的工作者需要做点事情来干预了,并仔细研究和探索其中原由。
2018年4月3日

创建属于自己的调色板

我们知道发表文章的时候不同杂志的配色方案是不同的,如果参加工作的话,不同公司的配色方案也是不一样的,每个人的色觉也是不一样的,所以如果可以创建属于自己的配色方案的话以后可视化就可以随心所欲了。
2018年4月2日

精选 | 2018年2月R新包推荐

提供了针对几种分布的抽样函数,如威沙特分布(Wishart)随机变量的斯基(Cholesky)因式分解、反威沙特分布(Wishart)和反威沙特分布随机变量的斯基(Cholesky)分解.
2018年3月31日

R语言data manipulation学习笔记之subset data

c("Apple","Apple","Apple","Google","Google","Google","Microsoft","Microsoft","Microsoft")
2018年3月29日

史上最全的图表色彩运用原理

):是指颜色的强度或纯度。饱和度表示色相中彩色成分所占的比例,用从0%(灰色)~100%(完全饱和)的百分比来度量。在色立面上饱和度是从左向右逐渐增加的,左边线为0%,右边线为100%,如:。
2018年3月29日

数据分析项目实战:大型商场销售预测(带你挤进比赛前100名)

2、商品层面的因素:Item_Visibility,Item_Weight,Item_MRP,Item_Attribute,Item_Fat_Content,Item_Type(控制商店类型)
2018年3月27日

R语言data manipulation学习笔记之创建变量、重命名、数据融合

c("Apple","Apple","Apple","Google","Google","Google","Microsoft","Microsoft","Microsoft")
2018年3月26日

你的生殖冲动,繁衍了这个价值1000亿美金的产业

70年代初,香港的电影市场充斥着武侠片和喜剧片,这些电影看多观众开始产生审美疲劳,这时,受欧美和日本影响,香港的邵氏电影公司开始拍一些有香艳镜头的电影,结果是影院场场爆满,这些电影当时被称为风月片。
2018年3月22日

lightgbm algorithm case of kaggle(下)

苏高生,西南财经大学统计学硕士毕业,现就职于中国电信,主要负责企业存量客户大数据分析、数据建模。研究方向:机器学习,最喜欢的编程语言:R语言,没有之一。
2018年3月22日

利用gganimate可视化R-Ladies发展情况

这篇博客主要基于d4tagirl(https://d4tagirl.com/2017/05/how-to-plot-animated-maps-with-gganimate),稍微有所修改。
2018年3月21日

lightgbm algorithm case of kaggle(上)

集成预测结果:在每个参数的适宜范围内随机抽取参数值构建lightgbm模型,并将多个模型进行集成,输出预测结果;本案例所用程序输出结果的ROC值为0.832023,已绝对超过Private
2018年3月20日

浅析那些带着“主角光环“的泰坦尼克号幸存者(下)

注:本案例不提供数据集,如果要学习完整案例,点击文章底部阅读原文或者扫描课程二维码,购买包含数据集+代码+PPT的《kaggle十大案例精讲课程》,购买学员会赠送文章的数据集。
2018年3月18日

一篇关于国旗与奥运会奖牌的可视化笔记

国旗的图片是来自于EmojiOne数据集(https://github.com/eosrei/emojione-color-font),有兴趣的可以去看看了解一下。
2018年3月16日

The rxfastforest algorithm case of kaggle

集成预测结果:在每个参数的适宜范围内随机抽取参数值构建rxFastForest模型,并将多个模型进行集成,输出预测结果;本案例所用程序输出结果的ROC值为0.829533,已超过Private
2018年3月15日

利用ggseqlogo绘制seqlogo图

ggseqlogo支持氨基酸、DNA和RNA序列类型,默认情况下ggseqlogo会自动识别数据提供的序列类型,也可以通过seq_type选项直接指定序列类型。
2018年3月14日

Xgboost算法——Kaggle案例

调参:逐步调试过抽样比例rate、eta、max_depth、min_child_weight、gamma、colsample_bytree等参数,并多次调试,直到满意为止;
2018年3月13日

浅析那些带着“主角光环“的泰坦尼克号幸存者

加载所需程序包library(Rmisc)library(VIM)library(ggplot2)library(dplyr)library(magrittr)library(caret)
2018年3月11日

从大数据角度看你的信用借贷

注:本案例不提供数据集,如果要学习完整案例,点击文章底部阅读原文或者扫描课程二维码,购买包含数据集+代码+PPT的《kaggle十大案例精讲课程》,购买学员会赠送文章的数据集。
2018年3月9日

【R图秀-7】中美俄军事实力对比

接下来,我根据数据中的8个大类("AIR","FINANCIAL","GEOGRAPHY","LAND","LOGISTICAL","MANPOWER","NAVAL","RESOURCES"
2018年3月8日

扎心实战案例:麻(shi)雀(zhan)虽小,五脏俱全

随机森林的正确率也是0.8361,但是通过混淆矩阵的详细情况,可发现预测的类别并不相同。kappa值为0.7673,略比决策树低一点点。整体而言,随机森林模型稍逊于决策树模型。
2018年3月7日

利用R语言绘制世界航班路线图

"source_airport_id","destination_airport","destination_airport_id","codeshare",
2018年3月6日

用circlize包绘制circos-plot

circos.trackHist添加柱状图,由于柱状图相对高级一点,因此circos.trackHist会自动创建一个track,无需我们circos.trackPlotRegion进行创建。
2018年3月5日

爬虫数据分析【旅游篇】

笛卡尔神殿,在清晨雾气浮沉的时候,登上塔尖,等待神秘的金字塔群在迷雾中一座座浮现;他曾经驾着独木舟,在加拿大的育空河里赏着极光钓着鲑鱼;他曾经驾着单薄的自行车,在非洲大陆,与大象、长颈鹿一同驰骋。
2018年3月5日

【R图秀-6】地震来了

save_map生成的是背景透明的png文件,我们可以把bath,border和earthquake图像作为3个图层merge在一起。这里用的是ImageMagick软件的convert工具。
2018年3月3日

99.9%的数据分析师,都做不到这些

他们查看了用户数据库,想搞清楚用户都做了什么,经过一番探索性分析,他们发现,有一个用户群体在其他群体活跃度较低的情况下,撑起了整个产品的用户参与度,这就是妈妈群体,他们发现:
2018年3月1日

【R图秀-5】将薪比薪

生物信息:深圳有华大,北京有贝瑞和康、诺和致源,上海能叫的出名字的公司是哪家呢?工资水平也反映出了这种地域上差距。上海的同行们要加把劲啦!深度学习:上海的公司很给力!是我们学习的好榜样!3.
2018年2月28日

ggplot2学习笔记系列之主题(theme)设置

几乎所有元素在theme()里都使用element_line,element_rect,element_text和element_blank函数设置.
2018年2月27日

使用ggplot2绘制心形

cookbook》,并且受到傅兴[R图秀:情人节快乐]的启发并且想检验一下自己学习的成果,所以就打算给gf用ggplot2包画了爱心(因为忘记买礼物了!)
2018年2月26日

精选 | 2018年1月R新包推荐

原文地址:https://rviews.rstudio.com/2018/02/22/jan-2018-top-40-new-package-picks/
2018年2月25日

【R图秀】情人节快乐!

这支箭看上去是放在爱心上而不是穿过爱心,所以我们需要调整一下画arrows的顺序:
2018年2月14日

ggplot2学习笔记系列之利用ggplot2绘制误差棒及显著性标记

url("http://sharpsightlabs.com/wpcontent/datasets/world_ports.RData")
2018年2月12日

R 包 `ezdf`的讲解

---------------------------------------------------------
2018年2月11日

谈谈R中的乱码(三)

bb"如果是我们自己写的代码,可以小心谨慎,避免跳坑,很容易就能找到替代方案。博主随便列举一下,就有两种:
2018年2月8日

共享单车租用频次分析

从折线图中可以发现,假期(1)时的租车高峰时下午一点左右和六点左右,早上的8点左右的租车频次降低了不少。非假期(0)时的租车高峰期就是早上8点左右和下午的6点左右,即上班族的上下班高峰期。
2018年2月7日

R语言学习笔记之相关性矩阵分析及其可视化

cor()只能计算出相关系数,无法给出显著性水平p-value,Hmisc包里的rcorr()函数能够同时给出相关系数以及显著性水平p-value。rcorr(x,
2018年2月5日

【R图秀-3】——“全球和平指数”可视化

虽然发达富裕的国家不一定更加peaceful,但是GPI最低的国家绝大部分都是富裕国家,也有少数例外,比如不丹(Bhutan)。不丹经济相对落后,但却被评为世界幸福指数最高的国家之一。
2018年2月2日

谈谈R中的乱码(二)

bug,无需一个个去提醒各个包的开发者去做修改。你能体会跟老外去沟通,让他们去理解这些乱码问题是多么费劲的一件事情嘛?更何况下个版本升级不小心又改回去了呢?以上都是博主遭遇过的血泪史。
2018年1月31日

R语言可视化学习笔记之ggrepel包

可以看到可视化效果不是很好。接下来看看包ggrepel的效果。geom_text_repel()是基于geom_text()
2018年1月29日

【R图秀-2】社交网络数据可视化(一)

我们可以看到,“电影”是他们微博中出现最频繁的词汇,说明他们利用微博在向粉丝们宣传自己的电影,其次就是和家人朋友相关的词汇。由于时间有限,我没有继续深挖下去。生成词云的代码如下:
2018年1月28日

精选| 2017年12月R新包推荐

提供针对Gameday数据的多核处理方法,该数据源自美国职业棒球大联盟高级媒体(http://gd2.mlb.com/components/game/mlb/);
2018年1月27日

【R图秀-1】12306列车数据可视化

在抓取数据前,首先要确定列车的出发地和目的地是哪里。我选择上海作为出发地,12306官网上的其他32个热门城市作为目的地。发车时间选择十一国庆节(2016-10-01)
2018年1月26日

R语言可视化学习笔记之相关矩阵可视化包ggcorrplot

基于ggplot2包以及corrplot包的相关矩阵可视化包ggcorrplot,ggcorrplot包提供对相关矩阵重排序以及在相关图中展示显著性水平的方法,同时也能计算相关性p-value
2018年1月25日

谈谈R中的乱码(一)

在R教学中,首先要跨过去的一座大山就是乱码问题。很多学生在装好R和RStudio之后,刚刚运行RStudio,还未尝个鲜,写出R的第一段甚至人生第一段hello
2018年1月24日

R语言可视化学习笔记之添加p-value和显著性标记

aes(label=..p.format..)或aes(lebel=paste0("p=",..p.format..)):只显示p-value,不显示统计检验方法
2018年1月23日

R语言可视化学习笔记之ggpubr包

国内最大的R语言学习分享平台,涵盖R官方、Rstudio、中国R语言会议等前沿分享。立即关注,掌握R语言全球最新资讯与成果!
2018年1月19日

R语言学习笔记之聚类分析

#估计聚合簇数由于k均值聚类需要指定要生成的聚类数量,因此我们将使用函数clusGap()来计算用于估计最优聚类数。函数fviz_gap_stat()用于可视化。
2018年1月16日

R语言数据可视化---交互式图表recharts包

library(devtools)install_github("madlogos/recharts")二.使用方法:1.散点图/气泡图
2018年1月10日

2017年R语言发展报告(国内)

1.IEEE编程语言排行:https://spectrum.ieee.org/computing/software/the-2017-top-programming-languages
2018年1月8日

图解欧洲足球五大联赛 | R爬虫&可视化第五季

本次数据爬取我们选择的是虎扑网站,虎扑网站作为大型的体育类资讯网站,可以作为足球类数据的来源。爬取分为两部分,球员资料和比赛统计,比较好的一点是虎扑网站上的数据是以表格形式进行存储,如下图所示:
2017年12月27日

kaggle案例:数据科学社区调查报告(附学习视频)

fread("D:/R/天善智能/书豪十大案例/数据科学调查\\multipleChoiceResponses.csv")##
2017年12月26日

精选 | 2017年11月R新包推荐

API进行封装,可以通过该包进行相关操作.(ProPublica是一家针对美国社会公共兴趣进行调查报道的独立非营利机构)
2017年12月24日

左手用R右手Python系列之——表格数据抓取之道

#访问登录的页面remDr$navigate("https://www.aqistudy.cn/historydata/monthdata.php?city=%E5%8C%97%E4%BA%AC")
2017年12月22日

R语言爬虫实战:知乎live课程数据爬取实战

在线课程请点击文末原文链接:往期案例数据请移步本人GitHub:https://github.com/ljtyduyu/DataWarehouse/tree/master/File
2017年12月21日

近三十年6000部国产电视剧告诉了我们些什么 | R爬虫&可视化第四季

终于到了演员评分阶段,根据根据参演剧集的豆瓣评分计算演员分数。豆瓣分数确实存在一些不合理的地方,如一些经典老剧分数偏低等,但是相对而言,豆瓣分数从投票人数和防刷分等方面具备了一定的参考性
2017年12月17日

同花顺股票分数可视化 | R爬虫&可视化第3季

我们爬取了同花顺当天对股票的打分,同花顺作为一个专业机构,每天对于个股都会有技术面、资金面、消息面、行业面、基本面等五个方面的打分。我们会分别爬取这五部分的分数,并计算其总分。
2017年12月16日

R语言爬虫实战:网易云课堂数据分析课程板块数据爬取

打开F12键,定位到XHR,寻找以.josn结尾的请求文件。当你在它的右侧打开对应Preview菜单,可以看到它的json数据源并且,有大量很整齐的课程信息的时候,差不多就找对了。
2017年12月15日

kaggle案例:员工离职预测(附学习视频)

'number_project') bar_pro员工参与项目个数与是否离职的百分比堆积条形图参加项目数越多的员工离职率越大(去除项目数为2的样本)
2017年12月14日

左手用R右手Python系列——循环中的错误异常规避

本案例目标网址,今日头条的头条指数行业报告,全都是pdf格式的,需要先抓包获取PDF文件地址,之后我会随机抽取其中5个地址(因为PDF下载要看网速的,特别慢),然后将其中两个地址设置为不存在地址。
2017年12月13日

左手用R右手Python系列——异常捕获与容错处理

如果我们想要包装一下此异常,指定一个规则,如果网址存在则返回1,否则返回0,那么这两个条件要求我们必须明确的判断两次请求的状态。可以尝试着使用tryCatch函数来进行封装并捕获可能出现的异常。
2017年12月12日

左手用R右手Python系列——任务进度管理

在线课程请点击文末原文链接:往期案例数据请移步本人GitHub:https://github.com/ljtyduyu/DataWarehouse/tree/master/File
2017年12月11日

当古代文人参加“中国好诗人”节目 | R爬虫&可视化第2季

最终李白以三项均排名第一的巨大优势毫无悬念的获得了本次比赛的冠军,被小学生所热捧的苏轼和一直很忙的杜甫分获亚军和季军,排名四到十位的分别是:辛弃疾,白居易,陆游,李商隐,王维,李清照,刘禹锡。
2017年12月11日

左手用R右手Python——CSS网页解析实战

mydata=pd.DataFrame(myresult) mydata=mydata.astype({'eveluate_nums':'int','price':'float',
2017年12月7日

卫视实时收视率对比 | R爬虫&可视化第1季

geom_text(data=province_rate,aes(x=longitude,y=latitude,label=province_name),size=2.8,alpha=0.7)+
2017年12月7日

论剑大数据技术,效率为王!天善智能掘金数据技术沙龙【上海站 12.09】

聚集数据领域朋友,交流数据领域(商业智能、大数据)发展动态;分享领先技术、数据领域行业发展、数据产品、数据应用、解决方案、在行业中的实践心得;掘金数据价值,探索数据之美。
2017年12月6日

9张图带你了解全宇宙最神秘的团体——程序员

国内最大的R语言学习分享平台,涵盖R官方、Rstudio、中国R语言会议等前沿分享。立即关注,掌握R语言全球最新资讯与成果!
2017年12月6日

冬日暖阳!网易大数据应用与分析实践分享沙龙【北京站 12.16】

如何在业务中规划落地场景,如何在实践中规划科学架构;针对数据业务人员的一次沙龙活动,邀请客户分享使用有数的经验及带来的价值,网易数据分析专家、产品技术大咖,为您带来数据分析、数仓建设等实战内容!
2017年12月6日

左手用R右手Python系列17——CSS表达式与网页解析

以上表达式写法中还有一个细节性的小知识点,就是class属性值倘若特别长,可以截取其前几个字符(可以作为唯一辨识就可以),倘若内部有空格,空格可以以“.”号替代,否则可能引起表达式匹配错误。
2017年12月5日

左手用R右手Python系列16——XPath与网页解析库

“/”代表绝对路径,何为绝对路径,就是不可跳转的没有任何捷径的路径,再简单的说,就是假如你在走一个100阶的台阶,如果你要按照绝对路径走过去,那么你必须从第一块台阶一个一个走过去不能省却任何一个。
2017年12月4日

左手用R右手Python系列——模拟登陆教务系统

"Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
2017年12月1日

39个大数据可视化工具 | 数据研究必备

一个开源JavaScript库,Leaflet是用来创建移动友好性、交互式地图的工具。由VladimirAgafonkin和一个团队贡献开发而成,Leaflet设计的目标是简洁性、表现性和易用性。
2017年12月1日

R语言实战:预测钻石的价格

这个价格的预测模型只是基于4C基础下作出的预测,但是价格还会受到其他因素的影响,例如商家的利润、购买时间、购买优惠度等等,所以,即使有模型也不能过分的依赖模型,还是需要考虑其他因素
2017年12月1日

数据招聘 | 上海+宜嘉科技+大数据售前/售后技术支持+15-25K

3、熟悉Hadoop组件,例如HDFS、Hbase、Hive、Spark等,2年以上的Hadoop方面的操作工作经验以及设置和运行的Hadoop集群的能力
2017年11月30日

第十届中国R会议(上海) 暨华东地区数据科学会议须知

我们开发的新的包整合了许多优秀的自适应抽样算法,能够解决几乎大部分分布的抽样,是现有R功能包中常规分布抽样函数的有效补充。因其普遍的适用性与使用的便利性,希望此包会受到广大统计专业人员的欢迎。
2017年11月30日

第十届中国R会议(上海) 暨华东地区数据科学会议报名通知

我们开发的新的包整合了许多优秀的自适应抽样算法,能够解决几乎大部分分布的抽样,是现有R功能包中常规分布抽样函数的有效补充。因其普遍的适用性与使用的便利性,希望此包会受到广大统计专业人员的欢迎。
2017年11月29日

不懂这25个名词,好意思说你懂大数据?

这是一个来描述使用多个服务器丰富资源的一个集群(cluster)的计算的形象化术语。更技术层面的理解是,在集群处理的语境下,我们可能会讨论节点(node)、集群管理层(cluster
2017年11月29日

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

geom_text(aes(x=1.6,y=label_y,label=paste(round(class_count$freq*100/sum(class_count$freq)),"%")))+
2017年11月29日

左手用R右手Python系列14——日期与时间处理

"2016-07-12"wodate<-c("07|13|2016","07|12|2016")###月日年mydate<-as.Date(wodate,"%m|%d|%Y");mydate [1]
2017年11月28日

互联网开发人员压力到底有多大?

国内最大的R语言学习分享平台,涵盖R官方期刊、中国R语言会议、数据分析、数据挖掘、统计学、机器学习等领域。立即关注,掌握R语言全球最新资讯与成果!
2017年11月28日

利用R语言做可重复性报告研究

data.frame(aggregate(customer_new[,3:8],list(gu_flag=customer_new[,2],type=customer_new[,9]),
2017年11月28日

R语言学习历程回顾总结

通过分析,我认为写对别人有用的文章用户点赞和评论数就会增加。以后在完成自己学习的同时,多想想文章怎么写对别人更有参考和借鉴意义,顺便把自己的心得和未实现的想法提出来,可能文章质量会更高。
2017年11月27日

R语言爬虫系列6|动态数据抓取范例

中,大概可以断定微信好友数据是通过动态加载来显示的,所以直接定位到XHR中,经过几番尝试,结合右侧的preview,我们会发现大量整齐划一的数据,所以二次请求的url真的就是它了:
2017年11月27日

为什么世界上近60%的人使用谷歌Chrome浏览器?

国内最大的R语言学习分享平台,涵盖R官方、Rstudio、中国R语言会议等前沿分享。立即关注,掌握R语言全球最新资讯与成果!
2017年11月27日

R|ggplot2(七)|自定义主题

是否将背景覆盖在图形上面(一般panel.background设置透明色"transparent",效果:图形被网格线划分 legend.background
2017年11月26日

这个包绝对值得你用心体验一次!

这篇文章对于R语言网络数据抓取而言意义重大,这是我第一次在R里面看到竟然有一个自带请求器的解析器,而且还是调用的plantomjs无头浏览器,专治各种wed端js动态脚本的隐藏数据。
2017年11月22日

R语言爬虫系列5|正则表达式与字符串处理函数

小编这里需要简单的列一下基本的正则表达式语法,这几个语法作为正则表达式的基础,必须用心记下来,并用一些简单的例子加深印象,是需要熟练掌握的。正则表达式速查表,参考信息来自:
2017年11月20日

R|ggplot2(六)|套用主题模板

这个包需要从github上下载安装,而且要想正常使用需要加载一些字体(见[官网文章](https://github.com/ricardo-bion/ggtech)末尾),具体使用也参考这个网站
2017年11月18日

互联网公司该如何应对微信小程序?

因此,作为互联网公司,我们更应该懂得取舍,如果我们想玩的犀利和复杂一些,还得靠APP来维持我们的整个产品体系;如果我们想玩的简单和小众一些,可以选择小程序。
2017年11月16日

精选 | 你必须懂的R语言最新数据包

R语言作为优秀的数据科学工具,越来越受到广大数据科学工作者的欢迎!当前,通过R获取各种外部数据已经非常便捷。以下为过去两个月在CRAN上发布的40多个R数据包,希望有助于大家的学习!
2017年11月15日

R语言学习之道:罗马非一日建成

我想再一次强调的是上面所有地图都只需要对我们一开始的那三行代码进行略微的修改就可以得到这些图形。在创建这样的基础地图的时候真的不需要我们用的多少复杂的方法,通常简单的两个R语言函数即可搞定。
2017年11月14日

谁在说谎?双11数据的罗生门真相辨析

与2016年相比,天猫、京东市场占比是下降的,天猫从68.2%降低到66.23%,京东从22.7%下降到21.41%,苏宁易购占比提升很大,2016年只有2.2%,上升了1.23个百分点。
2017年11月13日

R语言爬虫系列4|AJAX与动态网页介绍

对于通过AJAX改进后的DHTML而言,我们在用R进行抓取时只是去查看源代码肯定是不够的,R语言没有为我们提供必要的结构分析功能,这时候还是要借助于浏览器本身的Web开发者工具来进行分析。
2017年11月13日

七周成为数据分析师课程学习指南

内容定调依旧是入门,各大知识点会照顾零基础的同学。如果已经有多年的工作经验,那么它未必适合,这一点望大家合理评估。因为我从事的行业,很多内容都是偏互联网的,传统行业的从业者,或许需要一个适应的过程。
2017年11月12日

数据驱动业务的七种类型,你目前在哪一种

当然,很快大家就发现空下KPI效果不好使。实际上,一个良好的KPI,是蹦一蹦可以摸得到的KPI,这样既考虑了实际能力,又有挑战性。于是人们开始考虑拆分KPI,寻找KPI的来源。还拿销售数据举例子:
2017年11月12日

史上最复杂的双十一优惠规则,你真的买到便宜了吗?

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2017年11月11日

R可视化分析链家网南京楼市数据

round(zoneUnitPrices[zoneSales$zone]*max(zoneSales$Freq)/max(zoneUnitPrices)) text(c(1:9),
2017年11月10日

用R语言对大气污染物PM10进行统计分析

c(DatazhongA,DatazhongB,DatazhongC,DatazhongD,DatazhongE,DatazhongF,DatazhongG,DatazhongH) datanew1
2017年11月9日

左手用R右手Python系列13——字符串处理与正则表达式

Pyhton系列,我都内心特别忐忑,因为我知道有很多Pyhton大佬在看我的公众号,害怕自己丢脸的,毕竟自己才学不到四个月的python。但是害怕丢人就不能进步了,所以还是坚持写了哈哈~_~。
2017年11月9日

R语言爬虫系列3|HTTP协议

text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8Proxy-Connection:
2017年11月8日

企业招聘大数据人才,看重的是哪些方面?

数据科学家更多地是扮演一个团队大脑或者指挥官的角色,将仓储的数据利用起来,变成对企业有利的价值。企业采集数据、成立数据团队的目的是利用它来进行商业决策,最终变成商业利润,这也是数据科学家的责任。
2017年11月8日

空间数据可视化笔记——simple features空间对象基础

这就意味着团队分析人员如果没有技术开发人员的配合或者服务商的独家服务支持,可能在软件服务使用期内一直只能接受产品中限定的所有规则,想要自定义自己的风格、扩展性能或者自定义新的可视化框架几无可能。
2017年11月8日

Kaggle:纽约的士旅程数据简要分析

grid.arrange(p10,p11,ncol=1)发现:(1)主要的路程距离集中在1-3公里这个范围内(2)行驶的速度集中在13-15km/h,我的天!这么堵?
2017年11月7日

R语言向量化运算:apply函数族用法心得

apply,除了其对象参数是一个list或者data.frame之外,其返回值也是一个list。而sapply函数作为一个简化版的lapply,其返回值形式可以不是list。二者用法如下:
2017年11月7日

用R语言对空气质量进行可视化分析

ggplot(data,aes(x=AQI,colour=是否下雨))+geom_freqpoly(aes(y=..density..),size=2)+theme_bw()
2017年11月6日

R|ggplot2(五)|scale 修改默认设置

以上函数我们查看帮助文档看参数时,会发现有一个...,这代表除了本页列举的这些参数之外,这个函数还可以使用其他的参数,这些参数往往是几个函数共有的,所以在另外一个地方列举了出来。
2017年11月4日

R语言爬虫系列2|XML&XPath表达式与R爬虫应用

关于XML还有其他的一些像注释、特殊字符命名、事件驱动等细节知识louwill在这里就不再细说了,感兴趣的朋友可以参考XML官方网站https://www.xml.com/。
2017年11月3日

2017年大学生就业报告分析,互联网行业还是香饽饽吗?

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2017年11月2日

左手用R右手Python系列12——空间数据可视化与数据地图

geo是地理信息系统的简写,geopandas是Python中用于处理空间地理信息数据的后起之秀(为什么是后起之秀呢,因为有个叫basemap的包,据说很难用,我还没有深入了解过呢)。
2017年11月2日

kaggle:R可视化分析金拱门餐厅食物营养性(二)

Fish"))%>%arrange(desc(Total.Fat....Daily.Value.,Saturated.Fat....Daily.Value.,Trans.Fat)) p4
2017年11月1日

kaggle:R可视化分析金拱门餐厅食物营养性(一)

Fish")%>% ggplot(aes(x=Item,y=Protein,col=Item))+geom_point(size=3)+theme(legend.position
2017年10月31日

左手用R右手Python系列11——相关性分析

由于最近毕业论文缠身,一直都没有太多时间和精力撰写长篇的干货,但是呢学习的的脚步不能停止,今天跟大家盘点一下R语言与Python中到的相关性分析部分的常用函数。
2017年10月29日

R|ggplot2(四)|stat_ geom_ 和position

接下来看,最后一行报错的代码。我们原来认为geom_col默认stat是"identity",所以想如果将其换成geom_bar对应的"count"是不是就可以只接受一个变量作柱状图,结果竟然报错。
2017年10月28日

Kaggle案例~R可视化分析美国枪击案(附数据集和代码)

#将plot()函数绘制的四幅图形组合在一个大的1×2的图中,按照性别及种族统计枪击频率 par(mfrow=c(1,2)) barplot(table(shoot$Gender),xlab
2017年10月25日

R语言爬虫系列1|HTML基础与R语言解析

符号包裹,以便和内容进行区分,不同的是终止标签会有一个/符号以示区别。一般而言,每个元素都有一个起始标签和终止标签,但也不是全部。比如说
标签表示换行,它就不需要一个
标签来表示终止。
2017年10月24日

左手用R右手Python系列10——统计描述与列联分析

事实上,crosstab似乎同时也能兼容透视表的完整功能,但是奇怪的是透视表提供了数据框名称参数,指定参数时无需声明数据框名称,而且行列字段都可指定列表对象(二维以上,指定多个
2017年10月23日

R|ggplot2(三)|coord 系列函数坐标轴转换

我们发现使用coord_trans时,拟合出来的曲线发生了弯曲。那是因为是先使用原有数据拟合出了一条直线,之后再改变坐标轴作图,所以曲线也被弯曲了。这不同于直接对数据进行变换的情况。
2017年10月21日

如何使用管道操作符优雅的书写R语言代码

3、当函数有不止一个位置参数(必备参数)时,且左侧传入的对象在右侧函数中不是位置排在第一个的,那么此种情况下必须显式声明该参数在右侧函数中所处的位置,并且使用“.”作为占位符占位。
2017年10月20日

左右用R右手Python9——字符串合并与拆分

mydata1<-unite(mydata,col="datetime",c("myyear","mymonth","myday"),sep="-",remove=FALSE);mydata1
2017年10月19日

R|ggplot2(二)|覆盖柱状图各种需求

geom_bar(aes(fill=factor(b)))我们可以看出x没有用factor的时候,横轴没有把所有的标签全标上,这表示把横轴当成连续性变量来看了,所以只标了一部分标签以表示大小关系。
2017年10月17日

左手用R右手Python系列8——数据去重与缺失值处理

因为最近事情略多,最近更新的不勤了,但是学习的脚步不能停,一旦停下来,有些路就白走了,今天就盘点一下R语言和Python中常用于处理重复值、缺失值的函数。
2017年10月16日

怎样才算精通R语言?

如果你不能做到快速准确地从脑子记住这些技能的话,或许你可能就还没准备好成为一名真正的数据科学家。这就意味着,你还没为数据科学工作做好准备。所以你的第一个里程碑就是熟练掌握基本内容。
2017年10月15日

左手用R右手Python系列7——排序

"gender":['male','female','male','female','male','female','male','female'],
2017年10月11日

做一个人见人爱的数据分析师,从让销售满意开始

是不是分分钟想摔了键盘,拿个算盘来摆摊算卦哇。本质上,市场部门纠结的问题大部分是主观因素,大部分是未来发生的事,大部分是一堆原因犬牙交错在一起。我能算中未来发生什么,我去算算股票楼市好不好。
2017年10月7日

R语言中文社区历史文章整理(作者篇)

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2017年10月7日

思路好,下班早!思路混乱,忙到肝颤!多渠道的分析方法

第二步:输出全景。针对渠道大类,先输出客流量、业绩贡献、投入比例、ROI这几个关键数字,让销售管理层们一眼看到:哦,原来我们的业绩来自哪里,我们的成本来自哪里。从而引发管理层思考,产生初步假设。
2017年10月5日

R语言中文社区历史文章整理(类型篇)

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2017年10月3日

拒绝鸡汤,我要挣钱!用数据分析找到销售成功背后的真正秘密

最近总结出简单易记的原则,比如介绍135,跟进3721之类的,让销售团队去复制,就是分析助力小的终极形态了。连这个行业的销售规范都是你分析出来的,还有比这更能带动业绩的吗!还有比这更能体现能力的吗!
2017年10月3日

快讯 |2017年8月R新包推荐

允许用户编写并发送HTML电子邮件消息,在一系列电子邮件客户端和设备大小中呈现。消息是使用Markdown和一个文本插值系统组成的,允许在消息主体内注入评估的R代码.
2017年10月1日

左手用R右手Python系列6——变量计算与数据聚合

iris.groupby('Species')['Sepal.Length'].agg({'count':len,'sum':np.sum,'mean':np.mean})
2017年9月30日

从一个小问题洞察挣钱秘籍,却被90%的数据分析师忽略

这里依然是陈老师连载第五篇中的方法。贴的标签越多,越能丰富数据维度。特别是当我们锁定了业绩好的门店和团队以后,针对这少数几个样本,贴标签就更容易了。并且下一步的分析还需要大量标签支持。
2017年9月30日

日报没人看,周报全白干!减少无效报表就该这么干!

如果想强化效果,可以增加昨日明星的提示。销售团队最讨厌不接地气的理论专家,最需要榜样和目标感。增加一个昨日明星,可以有效结合晨会激励队伍行动。比搞复杂的指标和模型要有用的多。
2017年9月29日

干货 | 这是一份你急需的数据分析的职业规划

Python入门书籍的推荐太多,略过。「用Python进行数据分析」是必备的,当然这本书有点老,活用官网最新文档和stackoverflow,基本无碍。Python可视化查阅文档也够了,不用看书。
2017年9月29日

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

0.9444该检验原假设为H0:数据集符合正态分布,统计量W为。统计量W的最大值是1,越接近1,表示样本与正态分布越匹配。p值,如果p-value小于显著性水平α(0.05),则拒绝H0。检验结论:
2017年9月28日

码数5小时,结论憋两天,分析报告结论到底该怎么下!

然而这样还是有问题。这种细致的剖析需要较长时间准备,至少是月度分析级别。然而对销售的日报、周报又如何体现价值呢?这就涉及到如何搭建一套合理的数据支持体系上。稍后陈老师继续分享。
2017年9月28日

R语言交互式绘制杭州市地图:leafletCN包简介

geo$lon<-geo$lon+rnorm(5,0,0.003)geo$lat<-geo$lat+rnorm(5,0,0.003)
2017年9月26日

左手用R右手Python系列5——数据切片与索引

在索引多行时,R与Python都可以使用连续行列,均需提供占位符号,(R语言留白即可标识全选,Python则占位则必须提供“:”符号),在索引多列时,均无需提供占位符号。(当然提供了也不多余)。
2017年9月24日

初学者如何避免bug:RStudio代码实时错误提示功能

此诊断是针对辨认变量已经被创建,但是没有使用的情况。常常用于试图清除旧的代码,或者其他小的错误(你认为需要用,但是后来却没有用到)
2017年9月23日

如何在RStudio中预览数据

展现数据的数量是无限的,展现速度也不会因为数据量大而减缓速度,例如datatables的java脚本规则,在当下只有一小部分数据被上载。
2017年9月22日

kaggle:NBA球员投篮数据分析与可视化

哈哈,这里我们只是单一指标来衡量防守,所以评估还是相当不成熟的,在NBA里防守数据很难量化,现在专业的NBA数据分析师有各种进阶数据来衡量一名球员的防守数据,我们这里只供参考,重在数据分析过程哈。
2017年9月22日

用RStudio导入数据

例如:https://data.montgomerycountymd.gov/api/views/6rqk-pdub/rows.csv?accessType=DOWNLOAD
2017年9月21日

RStudio控制台“撸”代码的奇技淫巧?

代码补全同样适用于函数参数输入,如果键入subset((好多客官反馈,实践过程中没有这),然后,按下tab键你讲看到如下提示,这个方法比用help()函数来的更方便,可以快速指导完成代码。
2017年9月20日

R语言在收入不平等指标测度上的应用~

再分配效应,也即MT指数,用于衡量一项税收政策对收入不平等的影响程度,其经过多年发展,出现了很多分解公式,已经衍生了很多附属指标,这里我将与其有关联的累进性指标P指数也同时纳入MT指数的算法中:
2017年9月20日

其实你根本不懂RStudio的用心良苦!

RStudio同时也能让你直接在资源编辑器中执行代码,对于大多数R开发者来说,这是个代码重现的最好的工作方式,在编辑器中可以复制大量代码,或是重复使用包命令作为复用功能。
2017年9月19日

多维放射状流向图的最佳布局方案

argu<-switch(input$var2,zhibiao1=mydata$zhibiao1,zhibiao2=mydata$zhibiao2,zhibiao3=mydata$zhibiao3)
2017年9月19日

数据化甩锅!把问题优雅的甩给外部环境,活学活用PEST

PEST分析可以拿来分析外部环境。需要注意的是:PEST重点是分析不利环境的,所以才叫害虫。如果外部顺风顺水,那么内部八成也很舒服。只有当外部山雨欲来风满楼的时候,才需要格外关注环境,免遭雷劈。
2017年9月18日

关于美国地图中的两个海外州坐标平移与原始投影问题~

这是一个带有polyconic(普通多圆锥投影的)投影的美国地图,最重要的是,为了控制整个地图版面的比例尺并提高空间利用效率,该地图将美国的海外两州(阿拉斯加、夏威夷)移至大陆左下侧空隙处。
2017年9月18日

天气太热业绩差,除了设坛求雨外,数据分析师还能干啥?

实际上,陈老师就做出全年节日清单给到过销售部门,做法相当简单:节日时间—热销产品SKU—对应业绩。但相当受销售欢迎,因为确实非常实用啊。这样通过简单分析能取得信任和口碑的事情,做的越多越好。
2017年9月17日

这可能是一篇数据化运营的大纲

除了AB测试,得继续熟悉各类反馈指标,点击率、转化率、响应率。包括机器学习的精确率、准确率、召回率、AUC和ROC曲线、Lift提升图。这会把大家的思维,从单纯的转化,带到更高层的维度。
2017年9月16日

信息图表高仿——R语言仿一财经典线条比较图

geom_path(data=mynewdata[mynewdata$id=="F",],aes(x=sdd,y=y,group=id),color="#D56A55")+
2017年9月15日

左手用R右手Python系列——因子变量与分类重编码

通常意义上,按照其所描述的维度实际意义,因子变量一般又可细分为无序因子(类别之间没有特定顺序,水平相等)和有序因子(类别中间存在某种约定俗成的顺序,如年龄段、职称、学历、体重等)。
2017年9月14日

数据分析师如何应付“你行你上啊!”的嘲讽

当我们想抛出诊断结论的时候,可以先从销售团队内部找标杆。找到销售团队可以对照的对象,让他们自己在相比之下自愧形秽。进一步,引出我们的分析结论,更好让销售团队接受。也方便他们有样学样,改进工作。
2017年9月13日

ggplot2玫瑰图案例——星巴克门店分布图

其实这些问题都是之前我学习过程中走过的弯路,随着练习的案例越来越多,这些问题一步步全都解决了,其实如果你能有心看完我的所有关于ggplot讲解部分,差不多这些问题也都能全部理解。
2017年9月12日

左手用R右手Python系列——数据塑型与长宽转换

转换之后,长数据结构保留了原始宽数据中的Name、Conpany字段,同时将剩余的年度指标进行堆栈,转换为一个代表年度的类别维度和对应年度的指标。(即转换后,所有年度字段被降维化了)。
2017年9月11日

财经小知识——CRS风暴与全球离岸金融中心

截止2016年12月6日已经有101个国家承诺实施CRS协议。该协议涵盖了主要发达经济体,同时也包含BVI(英属维尔京群岛)、开曼群岛、百慕大和瑞士等全球“离岸避税地”和“洗钱中心”。
2017年9月10日

左手用R右手Python系列——数据合并与追加

在R语言中,这种操作有很多可选方案,如基础函数merge、plyr包中的join函数以及dplyr包中的left/right/inter/full_join等函数。
2017年9月9日

干货 | R学习资料分享(无需关注~~~)

R语言中文社区是国内最大的R语言学习分享平台,主要发布R最新全球资讯、精品学习成果、推荐课程及名企内推交流等!同时,R社区目前已经同步开通微博、知乎等媒体账号,欢迎大家关注、交流~~~
2017年9月9日

数据分析师如何面对“我早知道了!”这句质疑

所以如果只是简单的列几个数字高了低了就下结论,那还是省省这个力气吧。还不如做个仪表盘丢给一线,让人家看的更简单轻松一点。想要真正帮到一线,我们需要更深入的理解一线的业务逻辑。
2017年9月9日

最用心的运营数据指标解读

Click)指每用户点击成本,按点击计价,对广告主来说,这个比CPM的土豪作派理性多了。也有很多人会认为,CPC不公平,用户虽然没有点击,但是曝光带来了品牌隐形价值,这对广告位供应方是损失。
2017年9月8日

ggplot2多维分面多图层对应规则

geom_polygon(data=dongsansheng,aes(x=long,y=lat,group=group),colour="grey40",fill="white")
2017年9月8日

最惹销售反感的十种数据分析师,进来看看有没有你

销售部门:但是对谁推啊!我们能促成一单已经很不容易了好吧!还TM推大单,用你的直筒子脑袋想想,单价上去了,成交率肯定会往下跌啊,还作分析的呢!
2017年9月7日

左右用R右手Python系列——字符串格式化输出

连接一个元组,元组内提供主句所有的待格式化的字符串,有几个需要格式化的字符串就需要在元组中提供几个字符串对象,而且顺序一定要与待格式化的字符串在主句的位置一一对应。
2017年9月7日

数据分析必须懂的假设检验

x拔是样本均值,现实中不可能保证每次调研的数据都是一致的,假设将抽样过程一而再,再而三的进行下去,那么调研获得的平均分也是波动的。此时,样本均值x拔是一个随机变量,称它的概率分布为x拔的抽样分布。
2017年9月6日

R语言数据分析练手小项目:杭州二手房数据分析

p<-ggplot(data=hzhouse[,c(3,10,11)],mapping=aes(x=area,y=unitprice,color=factor(clust$cluster)))
2017年9月6日

读了本文,你就懂了概率分布

运营学会二项分布,在涉及概率的各种活动中,将变得游刃有余。它的原理甚至能用到AB测试。大学考试中二项概率需要查专门的概率表计算,不过现在各类工具层出不穷,Python、R、Excel都能直接计算。
2017年9月5日

面试坑杀新人指南,第三篇:分析个啥

这时可以再补一刀:“也就是你统计了一个数字,然而你分析了一个什么?平均复购60天又怎样?”这一问下去基本上可以斩死80%小白,当然还有继续顽强抵抗的:“这样业务部门就可以做重复购买的提醒了!”
2017年9月5日

概率论的入门指南

上文谈及的都是理论,数据的应用场景呢?比如拼写检查,我输入了一个字典中没有的英文单词:thi,这时候机器就要猜测是the,还是this?这个问题就转换成概率中的P(机器猜测的单词
2017年9月4日

让执着成为一种习惯——仿网易数独玫瑰气泡图

circle_data$Class<-factor(circle_data$Class,levels=c("Government","Youself","Family"),ordered=TRUE)
2017年9月4日

解锁数据分析的正确姿势:描述统计(2)

分布还是呈现乱七八糟的样子,为什么呢?因为我们选取的薪资是网络爬虫获取的薪资范围求平均,并不是真实的水平(很多HR复制黏贴瞎设的),这是不可避免的误差,那应该怎么办呢?可以适当的调整组数。
2017年9月2日

当PowerBI遇到R语言

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年9月2日

如何像一个机器学习老司机一样跟别人解释SVM算法?

接着前面朴素贝叶斯、贝叶斯网络和神经网络算法之后,笔者继续往后学习了其他分类算法,本期给大家介绍声名斐然的SVM,也就是支持向量机(Support
2017年9月1日

快讯| 2017年7月R新包推荐

7月份R官方在CRAN上发布了224个新包,以下为其中40个R包,涉及7个类别,诸如机器学习、统计、可视化、工具等。以下为各个R包的简要功能介绍,希望有助于大家快速了解其中功能。
2017年8月30日

读懂用户运营体系:用户分层和分群

上图是一个简化的游戏用户分层,每层指标都是可量化的。为了上下层用户清晰,群体间应尽量独立,即计算RMB玩家时,应该把土豪玩家排除,计算普通玩家时,应该把结果中包含的上两层排除,这样运营的针对性才强。
2017年8月29日

精美炫酷数据分析地图——简单几步轻松学会

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年8月29日

解锁数据分析的正确姿势:描述统计

如果数据本身符合正态(钟形)分布,那么切比雪夫定理的估算将进一步准确:68%的数据落在距离平均数一个标准差内,95%的数据值落在距离平均数2个标准差之内,几乎所有的数据落在三个标准差内。
2017年8月25日

面试坑杀新人指南,第二篇:数据哪来

所以结合业务需求,在有限度的真实性范围内解决问题才是正道。而不是拼谁的PPT漂亮,谁的模型复杂。数据分析的目的是产生效益!就这么简单。当然,理解了这一层的都不是菜鸟了,老鸟们不会栽在这里。
2017年8月25日

面试坑杀新人指南,第一篇:销售波动

第三:他们没有先排除系统异常。如果这个波动够大,那么是否可能是数据本身出了问题呢?这个要第一时间确认,排除错误,拿着正确的数据才能做分析。数据出错,分析毛线?
2017年8月24日

运营,有时候就是一句话的事

上图的思维导图就是展开的具体方法,我并不需要记住大道理,而是通过这段话引申出运营和营销策略,然后制定出适合的细节。这对新人是不是非常友好?哪怕你没有相关经验,你也比普通人前进了一步。
2017年8月23日

你想要的地图素材资源,我都帮你整理好了~

也可以选择使用VBA驱动。(关于如何在Excel和PPT中使用VBA操纵数据地图,这一块内容国内刘万祥老师研究的很深入,它有一本《用地图说话》,完全是基于VBA操纵数据地图的,感兴趣可以了解下)。
2017年8月23日

SQL,从入门到熟练

上面语句,我们用了文本清洗、子查询嵌套、分组聚合、排序等多种用法,属于较复杂的查询。重复数据的问题,因为我是复制了一份北京数据,数量刚好乘二,对平均数没有影响,感兴趣的朋友可以再加一步清洗掉它。
2017年8月22日

从零开始,构建数据化运营体系

把握当下,是能获得数据的立即反馈。你要推广一个活动,可以提前挑选5%的用户做一个测试,及时获知用户的反馈,转化率高不高,响不响应,然后按照数据决定后续的运营是继续还是改进。这是技术带来的进步优势。
2017年8月21日

学会自定义主题,让你的仪表盘瞬间高逼格~

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年8月21日

写给新人的数据库指南

如果大家有疑问,可以去网上搜索相关教程,不安装MySQL也是可以的。因为数据分析师大多数情况是用在线数据查询平台操作,安装只是为了方便演示。不想要安装的同学,可以在SQLZoo练习,以后我也会讲解。
2017年8月20日

运营的增长黑客之道

标题文案调整也用了心理学技巧(增长黑客都是心理大师),效果提升了约15%左右。幅度不如纯短信大,主要是字数的限制。邀请页面也调整过UI,不过我们没有专门做一套前端AB测试系统,所以不方便大改。
2017年8月19日

如何建立数据分析的思维框架

活动运营的ROI(投资回报率)也是后验性指标,一个活动付出成本后才能知道其收益。可是成本已经支出,活动的好与坏也注定了。活动周期长,还能有调整余地。活动短期的话,这指标只能用作复盘,但不能驱动业务。
2017年8月18日

对,你没看错,真的有这种操作~

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年8月17日

数据科学家成长指南(下)

为什么需要分层抽样?如果整群符合随机性倒还好,如果不是会造成统计上的误差。我要做社会调研,各类人都需要,那么就必须有男有女、有老有少、有城市有农村,而不是呆在一个商场门口做调研。前者就属于分层抽样。
2017年8月17日

数据科学家成长指南(中)

Zookeeper,是Hadoop的一个重要组件,它被设计用来做协调服务的。主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
2017年8月16日

数据科学家成长指南(上)

蒙特卡罗是一个大赌场,以它命名,含义近似于随机。我们有时候会因为各种限制而无法使用确定性的方法,此时我们只能随机模拟,用通过概率实验所求的概率来估计我们感兴趣的一个量。最知名的例子有布丰投针试验。
2017年8月15日

同时用R语言和Python爬取知乎美图

html_nodes("div.RichContent-inner>span")%>%html_nodes("img")%>%html_attr("data-original")%>%na.omit
2017年8月15日

通俗解读《8步成为数据科学家》

其次,我们来看看最经典的大数据框架——Hadoop,曾经这个以“黄色小象”为logo的hadoop,就几乎是大数据的代名词。简单理解hadoop,它就是一个分布式的大数据系统基础架构:
2017年8月14日

<<战狼Ⅱ>>豆瓣十二万影评浅析

worker() sw<-function(x){wk<=x} segwords<-lapply(my_dt[,评论内容],sw) my_segwords<-unlist(segwords)
2017年8月13日

数据分析师的必读书单

分析思维首推《金字塔原理》,金字塔原理有些人说它晦涩难懂,我认为是芭芭拉这个老太有骗稿费之嫌,本书包含了报告、写文、演讲等诸多内容。可以细看可以快看。另外还有一本同名案例集,有兴趣可以买。
2017年8月12日

以莺尾花数据集为例,探讨R模型部署之道

h2o.gbm(x=1:4,y=5,training_frame=fr)h2o.download_pojo(my_model,getwd())h2o.shutdown()
2017年8月12日

为什么未来的趋势是全栈运营

这就是早期运营的特点,体系理论皆不完备的情况下,以简单的方式进行职位配置。我们对那时的运营是这样一种期待:我不需要你做的有多好,但是这些工作总需要人去做,于是便找来一批人做运营。这是从无到有的阶段。
2017年8月11日

快速掌握麦肯锡的分析思维

不管问题形式是如何、是否还是能不能,只要作出了假设,就能用MECE原则画出金字塔结构。不要想着从无尽的业务和数据中找出规律,这叫大海捞针。这种根据问题作为中心论点形成的结构化思维,叫做问题树/逻辑树
2017年8月10日

数据可视化:手把手打造BI

DAX近似Excel函数(大多数第三方BI,函数均接近Excel),故它针对新手非常友好。如果大家已经熟悉Excel函数,上手速度会很快。基本上函数名字都一样,如果不熟悉,可以查阅官网提供的文档。
2017年8月8日

运营如何快速构建系统性的知识

关联也可以拓展抽象的边界,发散思维。比如我们有冲动、理性、疑惑的情绪。那么用户会不会有贪婪的情绪?当然可能,比如商品的优惠,商品的促销等,都有可能将60%的一部分转化到冲动。这是关联的另外一种用法。
2017年8月7日

游戏用户流失预测数据分析

userchurn<-read.csv("E:\\R语言\\Game_DataMining_With_R-master\\data\\第8章\\用户流失预测数据.csv",header=T)>
2017年8月7日

只要三句话,炼成商业分析能力

最重要的还是分析本身,除了框架,商业经验、业务理解,知识面都是不可取代的。所以我不在这里长篇大论,而是希望大家能够理解原理和应用。因为简单,所以能掌握,以及发展,让它变成每个人独一无二的思维方法论。
2017年8月6日

R语言学习:爬取天猫纸尿裤商品数据并进行价格分析 ...

将爬取单页数据改成for循环语句爬取多个网页数据,在操作过程中,发现无法执行循环,总是无限爬取首页数据,搜索了解决办法,无果,所以只能一页一页的进行数据抓取,然后将所有数据汇总。
2017年8月6日

人工神经网络算法及其简易R实现

Network)简单而言是一种分类算法。作为机器学习的一个庞大分支,人工神经网络目前大约有几百种算法,其中包括一些著名的ANN算法:感知器神经网络(Perceptron
2017年8月5日

零基础能成为数据分析师吗?

于是知道了爬虫,知道了Python,但我并不会。最后靠第三方爬虫工具,按照教程学习。早期已经学习过HTML+CSS,然后再了解网页结构,学习Get/Post,学习正则。花了一周时间加班,才下载下来。
2017年8月4日

那些年倒腾的R语言学习笔记,全都在这里了~

我也不敢相信自己竟然写过这么多代码,不过都是过去的事情了,以后要往前看,不断地优化代码,学习新东西的同时不断巩固旧知识,抱着一种归零的心态,总结、凝练、提升、创新~~~
2017年8月3日

rvest包,优雅的爬取猎聘网招聘信息

现在,职位链接我们也提取出来了,如何说想爬取职位的详细信息的话,那就不成问题了。如果你想爬取这个网页的数据,这些代码目前都还是可以用的,你可以去试试。下次有时间了再来对这些数据进行可视化分析。
2017年8月1日

数据可视化:教你打造升职加薪的报表

利润和销售额的数值在同一个度量范围,可以共用坐标轴。如果利润数值过小,比如零点几,或者30%这种比例,那么在图表上会近似一条平缓的直线,视觉表达欠佳。本图的数据类型我不建议用次坐标轴。下图仅是举例。
2017年7月31日

RStudio|用R Markdown生成你的R语言数据分析报告

的亮点在于其本身的语法环境运行的R代码可以保存并优雅的插入文档中,相应的文档也可以通过knit转化为HTML、PDF和word等规范化的文本格式。
2017年7月30日

数据可视化:你想知道的经典图表全在这

维度可以用时间、数值表示,也可以用文本,文本常作为类别。数据分析的本质是各种维度的组合,我想了解和分析全国各地的销售额,就需要将地区维度和销售维度结合,如果想知道各个年份的变化,那么再加入时间维度。
2017年7月29日

R语言之航空客户价值聚类分析

>airdata_scale<-scale(airdatanew[,-c(1:3)])#删除"MEMBER_NO","FFP_DATE","LOAD_TIME"这3个字段,剩余字段构建模型
2017年7月27日

Excel技巧:如何绘制一份优秀的甘特图(项目管理)

我们通过次坐标轴设置一条辅助线,用以显示当前日期。主要的思路是新建一列today()数据,把它设置在次坐标轴上,无填充隐藏,新建趋势线就ok了。其实也有其他方法完成,这里就不多讲了。
2017年7月27日

数据分析:手把手教你Excel实战

这些内容均是自定义,没有特别大的分析价值。如果要分析,必须花费很长的时间在清洗过程。主要思路是把这些内容统一成几十个固定标签。在这里我将不浪费时间讲解了,主要利用Python分词和词典进行快速清洗。
2017年7月26日

数据分析:Excel技巧大揭秘

先看数组的最基础使用。选择A1:D1区域,输入={1,2,3,4}。记住是大括号。然后Ctrl+Shift+Enter。我们发现数组里的四个值被分别传到四个单元格中,这是数组的独有用法。
2017年7月25日

在AWS上部署免费的Shiny应用

AWS有一个免费的套餐,让互联网用户可以免费的使用他的资源,包括了服务器,数据库,CDN,负载均衡等服务。我们为了部署自己的Shiny应用,可以申请免费的服务器资源,先跑一下,看看效果。
2017年7月25日

一篇文章读懂活跃数据

C产品获得投资后,通过大规模的烧钱推广,获得一个正向的活跃数据反馈。此时活跃有不小可能是由新增用户撑起的。产品自身的打磨若不好,老用户活跃率不会提高,这也是我们常说的留存概念。导致钱白白浪费不少。
2017年7月24日

如何使用reshape/reshape2使劲揉你的数据

reshape/reshape2包并不复杂,核心函数只需要掌握melt和cast/dcast/acast即可。大家在熟悉了R数据处理之后,基本就可以根据自己的想法自行去揉数据了。
2017年7月23日

数据分析:常见的Excel函数全部涵盖在这里了

复杂的原理不需要了解。这篇文章是常用函数汇总。甚至你不需要特别记忆怎么使用函数,应用Excel函数最重要的能力是学会搜索。因为绝大部分函数网上已经有相应的解释,图文结合,非常详尽。
2017年7月22日

Excel技巧:好用到哭的多级菜单

没错,当数据多到一定程度以后,单一的下拉菜单并不方便。那么有没有可能当我在菜单中选择市场部门以后,自动跳出来市场部门的员工呢?这样不是很方便输入了吗?这个需求是能做到的。
2017年7月21日

5K的人发牢骚,15K的人找原因,5w2h的正确用法!

比如A产品的问题,肯定早就有人说过了。那么他是什么时候、听谁的汇报?汇报是数据还是陈述事件?是否情况在那之后有变?这些都得摸清楚。不然,你不知道老板已经掌握的是什么,真正纠结的是什么。自然会返工。
2017年7月20日

磨剑之作,七周成“师”!秦路主讲,七周成为数据分析师

BI、Python爬虫案例、Python机器学习、Python数据科学家、大数据、数据分析报告、数据分析师体系、深度学习、R语言案例等10套课程。)只要998元火热报名中!
2017年7月20日

如何七周成为数据分析师

Excel的图表可以100%完成上面的图形要求,但这只是基础。后续的进阶可视化,势必要用到编程绘制。为什么?比如常见的多元分析,你能用Excel很轻松的完成?但是在IPython只需要一行代码。
2017年7月19日

R语言爬虫|15行代码教你抓取拉勾网招聘信息

选择器能够快速实现R语言下的网络数据抓取,并适当结合stringr包中的字符串处理函数对网页数据进行清洗和整理,抓取过程省时省力,适合R语言和爬虫入门的朋友使用学习。
2017年7月18日

clickpaste包介绍

reticulate使得R拥有写轮眼,能够克隆C++,java,python等其他编程语言的能力;mlr,caret提供了统计建模的统一接口,使得R繁杂的建模包能听懂“同一种语言”;......。
2017年7月16日

基于jiebaR包的周杰伦歌词文本挖掘分析

限于篇幅,关于jiebaR包的其他用法和更深入的讨论就有待各位同学自己去探索啦,这里仅仅是把我前几天的一个想法简单的实现了下,但也没有做更深入的分析,关于NLP
2017年7月14日

用数据分析告诉你数据分析师能挣多少钱

ggplot(industry,aes(reorder(industry,-Freq),Freq,fill=industry))+geom_bar(stat="identity")+xlab(
2017年7月13日

用ggplot轻松搞定太极图

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年7月12日

是时候展现真正的技术了——让你的图表舞动起来~

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年7月11日

基于R语言构建的电影评分预测模型

mydata<-mydata[,-4]现在这份数据集只有三列。我要使用ggplot2分析用户对电影的评分结果。我决定要使用饼图来展现出结果,这样可以很好的展现评分列的分布特点。
2017年7月10日

igraph包快速上手

现在,我们通过Gephi工具来对某款游戏的社交性进行分析。首先新建一个项目,然后在数据资料选择中,点击输入电子表格,将节点数据集Nodes和边数据集Links导入到Gephi中:
2017年7月6日

重要的是图表思维,而不是工具

tea_chord_newdata_final$lat[tea_chord_newdata_final$order==3|tea_chord_newdata_final$order==4]<--5
2017年7月4日

教你如何优雅的用R语言调用有道翻译

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年7月2日

R语言典型相关分析:NBA球员身体素质与统计数据关联性

其中x、y为两组不同的变量数据矩阵,xcenter、ycenter取逻辑值,指的是样本是否去中心化。通过cancor函数我们简单看下NBA球员的身体素质数据与技术统计数据之间有多少相关关系。
2017年7月1日

R语言之数据管理

举一个例子,假如变量“性别”的取值为:男性、女性。我们可以增加2个哑变量来代替“性别”这个变量,分别为性别.男性(1=男性/0=女性)、性别.女性(1=女性/0=男性)。
2017年6月30日

突破R内存限制的企业级大数据挖掘利器:Microsoft R Server 快速上手

现在我们也不用担心R语言这个问题了,自从微软收购了商业版R以后,就进行了很多的整合和优化,之前只面向高校学生免费试用,现在,我们企业界的数据从业者也可以免费下载Microsoft
2017年6月28日

为什么R语言是当今最值得学习的数据科学语言

最后,如果你还想对机器学习有个入门的话,很多参考书也都用了R作为范例。我承认尽管关于机器学习教材使用的编程语言各不相同,但我仍然坚信R是最好的工具。这里有两本用R作为讲解的优秀的机器学习入门书籍:
2017年6月24日

R语言可视化——关于ggplot所支持的数据地图素材类型

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年6月22日

数据挖掘系列篇之大众点评的实时计算

如果自己在组件内部采用线程池做一些计算密集型的任务,比如JSON解析,有可能使得某些组件的资源消耗特别高,其他组件又很低,导致Worker之间资源消耗不均衡,这种情况在组件并行度比较低的时候更明显。
2017年6月19日

R语言兵器谱:数据科学家的十八般武艺

就列到这里吧,全部R包仅在CRAN上发布的足足就有5000多个,每一个包后面都有一篇几十页PDF文档形式的学术论文作为支撑。对于一名R
2017年6月17日

leaflet在线地图进阶宝典——高级交互特性

在制作高质量在线数据地图的项目中,leaflet结合扩展的HTML性能,可以呈现非常人性化的动态效果,如能结合css、shiny等装饰器和交互框架,几乎可以胜任常见的动态交互网站的制作。
2017年6月17日

实习僧招聘网爬虫数据可视化

CairoPNG(file="E:/微信公众号/公众号——数据小魔方/2017年5月/20170512/shixiseng_jobcity.png",width=1200,height=640)
2017年6月15日

数据挖掘系列篇之R语言VS主成分分析的案例

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2017年6月14日

像电影一样记录数据可视化

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年6月13日

数据挖掘系列篇之会员分析

先来说说会员分级,不管是QQ会员、还是taobao会员、亦或是京东会员等,都是希望用户能够从最底层的潜在用户发展到VIP会员,刺激用户的消费,提高用户的忠诚度,通过一些bonus的offer来吸引。
2017年6月12日

ggplot2又添新神器——ggthemr助你制作惊艳美图

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年6月11日

R预设配色系统及自定义色板

barplot(rep(1,times=n),col=heat.colors(n),border=heat.colors(n),horiz=T,axes=F,main="Heat.Colors")
2017年6月10日

R语言可视化——用ggplot构造期待已久的雷达图

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年6月9日

高考数学140与成为高薪数据分析师之间有什么关系?

作者:陈文【8年经验数据分析师,对金融,零售领域数据分析有丰富经验。资深业务顾问,负责过完整的集团级CRM体系从搭建到落地。在业务部门最懂数据,在数据部门最懂业务,在数据业务两个交叉领域吐槽最凶猛。
2017年6月8日

数据挖掘系列篇之今日头条的个性化推荐

ItemCF)为例。基于物品的协同过滤算法可以利用用户的历史行为,因而可以使得推荐结果具有很强解释性。比如,可以给喜欢读足球新闻的用户推荐其它相似的新闻。基于物品的协同过滤算法主要分为两步:
2017年6月7日

一篇全是代码的数据可视化案例

geom_polygon(data=china_data,aes(x=long,y=lat,group=group),fill="white",size=0.2,colour="#D9D9D9")+
2017年6月6日

我把我用R写的第一个爬虫就献给了国家

这不,为了响应习大大开展的“两学一做”学习教育,我不仅认真学习共产党党章党规,学习贯彻习近平总书记系列重要讲话精神,争做一名合格党员。今天我就要用自己的技术来学习今年的《政府工作报告》。
2017年6月4日

地图可视化之——移花接木

geom_point(data=address,aes(x=lon,y=lat,size=Num),shape=21,fill="#ED7D31",col="#E02939",alpha=.6)+
2017年6月3日

用R-Shiny打造一个美美的在线App

作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang)
2017年6月1日

读优美博文了解低风险套利策略

T日申购C份额的成本。成本是T日的C份额收盘后算出的净值,但我们只能看到T-1日的C份额净值,T日的净值只能根据估算。比如临收盘前深证300P正跌0.18%,可估算C份额当日收盘净值为1.0722。
2017年5月31日

R数据处理|data.table篇(三)

frank比rank函数速度更快,而且增加参数ties.method参数的一种取值”dense”,即当有两个值相等并列第二时,让二者都为2,之后的数排名不是第4,而是3,这样结果数值不会发生跳跃
2017年5月30日

基于R软件对qq消息可视化给分析的实现

可以从下面的推文下载:仅用四行代码就可以挖掘你的QQ聊天记录(仅用四行代码就可以挖掘你的QQ聊天记录)rJava,Rwordseg,dplyr,wordcloud2,ggplot2
2017年5月29日

R数据处理|data.table篇(二)

Analysis(https://zhuanlan.zhihu.com/Data-AnalysisR)专栏目录:目录(https://zhuanlan.zhihu.com/p/25780082)
2017年5月28日

R数据处理|data.table篇(一)

Analysis(https://zhuanlan.zhihu.com/Data-AnalysisR)专栏目录:目录(https://zhuanlan.zhihu.com/p/25780082)
2017年5月26日

R|ggplot2(一)|一个完整的绘图流程

Analysis(https://zhuanlan.zhihu.com/Data-AnalysisR)专栏目录:目录(https://zhuanlan.zhihu.com/p/25780082)
2017年5月25日

jiebaR,从入门到喜欢

那刚才那个例子来说,“公众号”本来就是一个词,结果被分成两个词,因此我需要添加这个词。另外,我也想要“R语言”也被分成一个词。接下来我们就分别使用这两种方法来实现。
2017年5月24日

用R语言开始量化投资

如果我们不仅能够收集自己的通话记录,把亲戚朋友的或更多人的通话记录都收集起来,组建一个数据库。再把统计出来的骚扰电话统一标记,做成黑名单,然后把黑名单公开出来,就可以让更多的人面受骚扰电话的影响。
2017年5月22日

Catterplots包,让你绘制不一样的图

catcolor=c(0,1,1,1)) morecats(purr,-x,-y,cat=c(4,5,6),catcolor=list(c(1,0,1,1),c(0,1,0,1)))
2017年5月20日

R语言解读多元线性回归模型

本文通过多元回归的统计分析方法,介绍多元回归在金融市场的基本应用。我们通过建立因变量和多个自变量的模型,从而发现生活中更复杂的规律,并建立有效的验证指标。让我们我们的技术优势,去金融市场抢钱吧。
2017年5月19日

R语言学习应用_客户APP注册刷单展示

可以看出他5月1日至5月6日每天都在刷单,要不是我们警告,估计5月7日还会继续刷刷刷~,可疑点:1、客户注册时间太集中了,而且只集中在某个时间段;2、2号、3号和6号的客户都是24:00左右注册的,
2017年5月18日

R语言解读一元线性回归模型

对残差和拟合值作图,横坐标是拟合值,纵坐标是残差。残差和拟合值之间,数据点均匀分布在y=0两侧,呈现出随机的分布,红色线呈现出一条平稳的曲线并没有明显的形状特征,说明残差数据表现非常好。
2017年5月17日

R语言怎么给中文分词?

我把下载的词库放在了当前的工作目录下面了,所以直接输入词典名,没有添加地址。加载了该词典。如果出现上面的句子则表示这个词典加载成功了,我们命名为movie。
2017年5月16日

R语言解读自回归模型

平稳性是由样本时间序列所得到的拟合曲线,在未来的一段期间内能顺着现有的形态能一直地延续下去;如果数据非平稳,则说明样本拟合曲线的形态不具有延续的特点,也就是说拟合出来的曲线将不符合当前曲线的形态。
2017年5月15日

JAVA如何与R完美结合起来

vetor="c(1,2,3,4)"; connection.eval("meanVal<-mean("+vetor+")"); //System.out.println("the
2017年5月14日

今天再来谈谈REmap包

这个包是基于Echarts开发的一个包,它本身提供的参数也比较少,也就是说你想绘制更有个性更有特点跟符合自己需求的图像的话,那你就很有必要去学习了解Echarts方面的知识。
2017年5月13日

ggplot2你需要知道的都在这...

我们可以把不同的图层叠加在一起,这样就画在了同一张图上面。比如说我们要研究mpg数据中cty和hwy,以及displ之间的关系,我们就可以通过如下代码,将他们之间的散点图画在一起。
2017年5月12日

从大数据舆情传播角度看《三生三世十里桃花》

看了下,这些传播的主体主要是一些娱乐媒体,如优酷、故心电影、文娱教主等知名娱乐媒体,当然也包括杨幂本人的微博。等等,人民网也参与报道了,这种正儿八经的媒体也开始八卦了,可见“三生三世”的影响力!
2017年5月11日

R语言常用函数汇总

difftime(time1,time2,units=c(“auto”,”secs”,”mins”,”hours”,”days”,”weeks”))
2017年5月8日

今天咱们来绘制一个知识图谱怎么样?

首先我们先来分析一下这张图,图里面的微信支付——微信支付,小程序——小程序,等这些,它们之间本不需要连线,但这里是为了美观好看,才有这些连线,但实际却没有什么意义。使用simpleNetwork
2017年5月7日

仅用四行代码就可以挖掘你的QQ聊天记录

因此你在使用这个包的时候一定要确保已经装了这五个包。将QQmining包下载之后直接复制到library文件夹里面即可直接加载使用。
2017年5月6日

今天来挖挖你的QQ聊天记录

wang/Documents/" file<-paste(root,"18考研备战群.txt",sep="") #读取数据 file.data<-scan(file,what
2017年5月4日

一行R代码来实现繁琐的可视化

是一个简单易用的R软件包,它可以仅仅使用一行代码来对许多受欢迎的R软件包结果进行二维可视化,这让统计学家以及数据科学家省去了许多繁琐和重复的过程,不用对结果进行任何处理就能以
2017年5月3日

R字符串处理应用之邮件考勤自动化

最近有一件非常艰巨的任务:检查上周的『考勤邮件』。这个『考勤邮件』,容我耐心的解释一番。上周,老师为了不浪费大家的时间,通过在某几分钟内发送一封邮件到公共邮箱的方法来签到。
2017年5月2日

第十届中国R会议(北京)参会报名通知

第十届中国R会议(北京)将于5月19~21日在清华大学举办,R语言中文社区作为此次会议的合作伙伴,将开通会议报名通道(点击阅读原文)并全程分享会议精彩成果,欢迎大家报名参与!
2017年4月29日

RHadoop实践系列之四 rhbase安装与使用

TRUERHadoop实践系列文章的第四篇完成!希望这个四篇文章对大家有所帮助。稍后我可能还会写一些,关于rmr算法实践,rhadoop架构方面和hive的使用的相关文章。
2017年4月28日

R文本挖掘之tm包

"en"))as.VCorpus(x)第一个参数x即文本数据来源。对于as.VCorpus()中的x,指定的是一个R对象;对于VCorpus(),可以使用以下几种方式载入x。
2017年4月27日

R Hadoop实践系列之三 R实现MapReduce的协同过滤算法

1.基于物品推荐的协同过滤算法介绍2.R本地程序实现3.R基于Hadoop分步式程序实现每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明与代码的连贯性。
2017年4月26日

RHadoop实践系列之二:RHadoop安装与使用

/user/hdfs/o_same_school/part-m-00000R语言函数:hdfs.cat(”/user/hdfs/o_same_school/part-m-00000″)
2017年4月25日

RHadoop实践系列之一:Hadoop环境搭建

http://mirror.bjtu.edu.cn/apache/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gz3.
2017年4月24日

R数据处理|基础篇(二)

其实separate_rows相当于使用separate之后进行了融合,再更换一下顺序separate(df,birth,into=c("year","month"),sep="-")
2017年4月21日

数据挖掘:手把手教你文本挖掘

接下来需要对新闻内容进行分词,在分词之前需要导入一些自定义字典,目的是提高切词的准确性。由于文本中涉及到军事、医疗、财经、体育等方面的内容,故需要将搜狗字典插入到本次分析的字典集中。
2017年4月20日

“数据达人”养成记

近年来,身边越来越多朋友跟我请教,如何快速成长为数据分析人员。其实学习没有捷径,如何合格的数据分析人员,让我们先看摘自《数据科学实战》一书中的关于数据科学技能与自我认知的主要元素:
2017年4月17日

教你使用常用的字符串处理方法

结果中的pv两竟然还是包含'pv:'字符串,实际上我用了圆括号,只想取出pv对于的数值,却没有起作用。难道R中圆括号不起作用吗?这里还需要跟大家结束另一个"抽"的函数:str_match_all。
2017年4月16日

数据可视化实践之美(开篇)

希拉里的粉丝大都较为“书生气”,使用与书籍相关的词汇,其中有很多被认证为教授或博士;而特朗普的粉丝更加喜欢流行文化,他们可能同时是流行歌手的粉丝,也更加关注球类运动等。
2017年4月14日

R爬虫之上市公司公告批量下载

Selenium是一个用于测试网页应用的开源软件。它提供了浏览器中的点击,滚动,滑动,及文字输入等驱动程序。这样,利用Selenium即可以通过脚本程序来替代人工进行测试一个开发软件的各种功能。
2017年4月13日

R访问数据库管理系统(通过RODBC包和RMySQL包两种方式)

可见,我计算机安装的是32位的MySQL(为了与服务器上的MySQL版本一致)。此时,我们需要调出32位的ODBC数据源管理器来配置MySQL驱动。由于本机计算机安装的64位的Win
2017年4月12日

R数据处理|基础篇(一)

本文使用R语言进行数据处理,不仅包括R自带的函数,而且包括其他高效处理数据的R包。这个部分共两篇文章,使用基础函数和Hadley写的一系列数据处理包,来完成整个数据处理的基本需求。
2017年4月11日

【量化】基于二次多项式拟合的日内趋势交易策略

对此首先针对endtimes进行优化,自9:30:00开盘起到endtimes(endtimes取10:00:00至11:30:00)考察endtimes对于策略回测结果年化收益率(res)的影响。
2017年4月10日

R语言天气可视化应用

文件命名,把多个城市的数据合并到一个文件存储的问题。下面我们需要再定义两个函数,filename()函数用于新生成文件的命名,loadDate()函数用于多个城市数据的加载,合并在一个文件中保存。
2017年4月9日

R语言面向对象编程

"考试及格"我再一次用面向过程的代码,实现了整个的编辑逻辑。再用到面向过程来写程序的时候,每一次的需求变化,都需要对原始代码进行修改,从而不仅增加了复杂度,而且不利于长久的维护。更多思考留给了大家!
2017年4月8日

R深入 | 数据类型

<-data.frame(a,b)is.vector由于它们都是vector,所以用is.vector检验无法区分向量和列表。当然,也无法用as.vector将列表转换成向量。
2017年4月7日

R | 基础绘图

1:length(typen)){ points(a,b-0.8*i,type=typen[i],col=i+1) text(0.5,-0.2-0.8*i,typen[i],col=i+1) } #
2017年4月5日

【量化】基于时变对冲比率的商品期货Pairs Trading策略

标准差的优点是构造简单,但当残差分布不对称时,其参数值往往不对称;分位数的优点是剔除了分布偏态性问题,但缺点是在数据的外延方面能力不够(例如empirical
2017年4月2日

R语言游戏之旅 游戏2048

2048游戏算法上最复杂的操作,就是数字移动。在4*4的矩阵中,数字会按上下左右四个方向移动,相同的数字在移动中碰撞时会进行合并。这个算法是2048游戏的核心算法,我们的程序要保证数字合并正确性。
2017年3月31日

R语言游戏框架设计

Game类公共方法,包括了游戏全局调用的方法,但不包括Snake游戏stage1场景中运行的方法。在Game类的方法中,我们主要实现的都是开发的辅助功能。
2017年3月29日

R语言游戏之旅 贪食蛇入门

通过上面的功能需求分析,我们已经非常清楚地了解贪食游戏的各种规则和功能。接下来,我们要把需求分析中的业务语言,通过技术语言重新描述,并考虑非功能需求,以及R语言相关的技术细节。
2017年3月28日

R语言构建追涨杀跌量化交易模型

g<-g+geom_point(aes(x=Index,y=Value,colour=Series),data=na.omit(fortify(pdata,melt=TRUE)),size=4)
2017年3月23日

干货!IT小伙伴们实用的网站及工具大集合!

一个强大的前端框架,有了它你再也不需要敲那么多行的样式表,再也不用一点点地调试难看的DIV了。直接调用各种CSS样式,分分钟写出好看的网页界面。按钮、表格、进度条、提示框、输入框、菜单,应有尽有。
2017年3月22日

买房不恐慌!数据分析师能在广州轻松买房,为什么?

当然,陈老师写这个有站着说话不腰疼的嫌疑,因为广州的房价比起北上深来说完全是良心水平。大家搜一下链家,对比下北上广深四城,200万总价以下的房子的面积,位置,就可以看出来广州真的是一线城市的良心。
2017年3月21日

解惑rJava R与Java的高速通道

Files\R\R-3.0.1\bin\x64;D:\toolkit\java\jdk6\bin;;D:\toolkit\java\jdk6\jre\bin\serverJAVA_HOME:
2017年3月20日

R语言中的遗传算法

当然,算法执行时间和精度,都是通过参数进行配置的。如果增大个体数目或循环次数,一方面会增加算法的计算时间,另一方面结果也可能变得更精准。所以,在实际的使用过程中,需要根据一定的经验调整这几个参数。
2017年3月15日

R下如何实现VLOOKUP函数功能

data.frame(Month=as.character(c("一月","四月","五月")),income=as.numeric(c(352,778,992)),stringsAsFactors
2017年3月14日

算法,如何改变命运

这个其实要从多个方面进行考虑,我们的目标是个人价值最大化。那么,你要选择一个自己能够接触到的、完全竞争的、短流程的渠道,利用你的算法技术和对业务的理解实现变现的过程。
2017年3月13日

多人在线协作R开发RStudio Server

print(paste("hello",name))}sayHello("Conan")sayHello("World")提交:点击tools–>version
2017年3月8日

推荐 | R语言知识体系概览

"sum"R语言内核编程,如同其他语言一样,有很多的知识细节,并不是只有我提到的这几点。但由于缺少文档,同时R核心技术的不普及,所以知道的人就不多,会用的人更少。我也在每天探索,期待发现更多的秘密。
2017年3月7日

R下的Excel数据的预处理与简单分析

excelDate[order(time,decreasing=FALSE),]一如既往的需要一个“,”这就是R的风俗吧!decreasing是渐减的意思,想要升序就等于FALSE,反之等于TURE
2017年3月6日

R下“Hello World级”数据分析--数据探索之旅

如上图,这五个观测由于计量单位、数量级等的不同,无法进行直接画图--即使画出图来也不容易看出他们的关系。为方便比较,我使用For()函数和算术运算把它们转化成变化率(单位:%)(如下图)。
2017年3月3日

如何用R模拟婚姻市场上的匹配问题

"F_in_M","M_in_F")xtable(rankMale)xtable(rankFemale)xtable(output)xtable(list)作者:李佳飞
2017年3月2日

如何用 R 创作古诗

54看来在宋词三百首中,出现最多的词语是『作者』,『词文』,『词牌』,总共出现了310次。这是因为每首诗词开始时,文档中都会介绍这首诗词的作者、词文和词牌,从而干扰了我们的文本分析。
2017年3月1日

R语言从小木虫网页批量提取考研调剂信息

html为根元素,head和body是html的子元素,div是body的子元素,div有属性id,style,属性后面对应着属性值。“小木虫---“一行是p元素的文本内容。
2017年2月28日

NLP——自然语言处理(三)text2vec包

文档向量化是text2vec的主要步骤,创建词表(vocabulary)前需要设置itoken分词迭代器,然后用create_vocabulary创建词表,形成语料文件,构建DTM矩阵。
2017年2月27日

如何使用R语言解决可恶的脏数据

Age_mean))summary(df3)这个时候,Tel变量、Sex变量和Age变量已不存在缺失值,下面对Freq变量、Amount变量和ATV变量使用多重插补法。
2017年2月24日

Rattle:数据挖掘的界面化操作

R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施。
2017年2月22日

朴素贝叶斯算法的案例实现

用具体的一个实例来演示朴素贝叶斯算法,并用ROC曲线对模型性能进行评价,具体数据集来自R中mlbench包的自带数据集PimaIndiansDiabetes2,来基于朴素贝叶斯算法识别糖尿病患者。
2017年2月20日

数据分析中常见的七种回归分析以及R语言实现(五)---套索回归

这里在一次引用一下岭回归的谢佳标老师的代码,有点不好意思了,哈哈,大家自己脑补微信用手晤面流泪的表情;不过这次的话我加一点解释给大家,不然不太好看懂;
2017年2月17日

手把手教你使用ggplot2绘制中国地图

as.character(0:33)head(df_map)注意!这里必须强调一点:不可以单独将.shp文件放置在某个路径下,还需同时将.dbf和.shx文件放到一起,否则会出现读取数据失败的问题。
2017年2月16日

R语言中文社区免费送书~ 79元《数据实践之美》先到先得

赞助赠送,赞助方为确保活动真实性,书籍发出后7个工作日将接到来自赞助方的电话确认是否收到赠书,届时请大家如实回复并告知已经收到赠书即可。
2017年2月15日

手把手教你使用ggplot2进行数据分布探索

'orange')默认情况下,系统对小提琴图进行标准化处理,使得各组数据对于的图的面积一样,如果对这样的设置不满,还可以将sacle参数设为‘count’,使图的面积观测值数目成正比。
2017年2月14日

手把手教你使用ggplot2绘制条形图

同样,如果觉得R自动配置的填充色不好看,还可以根据自定义的形式更改条形图的填充色,具体使用scale_fill_brewer()和scale_fill_manual()函数进行颜色设置。
2017年2月10日

干货收藏 | R语言之正则表达式

text<-c("Don't","aim","for","success","if","you","want","it","just","do","what","you","love",
2017年2月8日

文本挖掘:手把手教你分析携程网评论数据

由于上面的词汇都是经过简化而成的,而原始评论可能是:“房间很干净”,“服务还是蛮不错的”,“酒店真心不错”等,所以就需要剔除这些干扰分词的词(“还是”,“蛮”,“真心”,“的”等)。
2017年2月7日

教你如何获取R的帮助

如果你想查看某个函数的示例;或了解了某个函数的具体使用方法,又想进一步的看看函数的使用案例,可以使用example()函数查看函数的例子。
2017年2月6日

R语言与地图(四)

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2017年2月1日

2017 R语言中文社区新春贺词

作为国内最大的R语言专业学习平台暨R官方学习实践社区,始终保持服务于广大R语言爱好者的核心理念,提供R核心网站学习、视频直播、R核心学习资源库、R全球会议资讯及信息发布等服务!
2017年1月27日

R语言与地图(三)

包 shape<-readShapePoly('~/县级行政界线/BOUNT_poly.shp') center<-getCoordinate('上海',
2017年1月24日

数据分析中常见的七种回归分析以及R语言实现(四)---多项式回归

在我们平时做回归的时候,大部分都是假定自变量和因变量是线性,但有时候自变量和因变量可能是非线性的,这时候我们就可能需要多项式回归了,多项式回归就是自变量和因变量是非线性所做的一个回归模型,其表达式:
2017年1月23日

R语言与地图(二)

是的,没错,这是不是和竞选过程中凤凰网绘制的美国大选地图很像呢。如果可以,我们还可以将两人在各州赢得的选票百分比通过各州颜色的深浅反应出来,在一定程度上能说明各州竞选的激烈程度。
2017年1月22日

7个步骤,带你从零开始制作一份简单的数据报告

以上这两个洞察的例子本身比较简单,但通常来说,即使是复杂的数据报告,也是由一个个相对简单的洞察结论组成的,这其中涉及到问题的分拆,逻辑线的建立等一系列内容。作为初学者,做到自己力所能及的程度就好。
2017年1月19日

建模那点事儿——实战篇

按说这也不是一件难事,但我翻了翻电脑后发现一个问题:我从上家公司离职时,为了装13,一份跟建模相关的报告文件都没带……最后双方商定,我有一个星期时间来做一份报告,这份报告决定了我是否能加入百度。
2017年1月18日

数据分析中常见的七种回归分析以及R语言实现(三)---岭回归

缺点:通常岭回归方程的R平方值会稍低于普通回归分析,但回归系数的显著性往往明显高于普通回归,在存在共线性问题和病态数据偏多的研究中有较大的实用价值
2017年1月17日

R语言与地图(一)

plot(china,col=getColor(china,provname,provcol,"white"),xlab="",ylab="")
2017年1月16日

借助tesseract包实现图片文本提取功能

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2017年1月15日

R实现地理位置与经纬度相互转换

data.frame(address=address,longitude=baidu_lng,latitude=baidu_lat)result结果(对应address_list文件位置经纬度):
2017年1月10日

菜鸟数据分析师对数据可视化的理解--完整篇

色彩:色彩是用来展示大数据的非常好的方式,因为大数据之间会有不少的差异,颜色恰恰是展示这些差异最好的方式,毕竟我们人天生对色差明感,在色阶的选取上我觉得最好能够有明显的差异。
2017年1月9日

深度 | R vs Python:R是现在最好的数据科学语言吗?

框架。这些技能可以用来完善核心的数据科学工具包,但它们不是我们想要了解的数据科学范畴的相关内容。事实上,我建议大多数初学者先学习基本数据科学相关的内容(如数据操作、可视化、分析等)后再学习软件开发。
2017年1月8日

使用 R 语言挖掘 QQ 群聊天记录

qqsrcdata<-readLines("QQGroup.txt",encoding="UTF-8")这里我们不关心聊天内容,只看时间和发言人,所以,我们把类似
2017年1月5日

R语言爬虫初尝试-基于RVEST包学习

#读取数据,规定编码#之前我是用关键字搜索,阅读html代码,获得html_nodes里需要什么属性,不过许多浏览器有开发者工具,可以直接获得层级信息。如遨游position<-web
2017年1月4日

(干货)数据分析案例--以上海二手房为例

原始数据中关于楼层这一变量,总共有151种水平,如地上5层、低区/6层、中区/11层、高区/40层等,我们觉得有必要将这151种水平设置为低区、中区和高区三种水平,这样做有助于后面建模的需要。
2017年1月3日

数据分析中常见的七种回归分析以及R语言实现(二)---逐步回归

这里我们就使用R语言实战里面的代码给大家做个实例,这里使用的是MASS包中的stepAIC()函数可以实现逐步回归模型,这个依据的AIC准则,模型的话就使用我们第一篇文章中的模型作为参照
2017年1月2日

数据分析中常见的七种回归分析以及R语言实现(一)--简单线性模型

lm(runs~singles+doubles+triples+homeruns+walks+hitbypitch+sacrificeflies,data=team.batting.00to08)
2016年12月29日

简单的用R来分析电商订单数据

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2016年12月27日

案例 | 用数据解读摩羯智投

多说一句,数据花点时间谁都可以在应用中拿到,虽然我已经整理了数据,但请大家不要太随意地张嘴要数据和代码,毕竟写一篇文章非常辛苦。如果你想直接用我的数据和代码,请扫文章下面二维码,请作者喝杯咖啡吧。
2016年12月25日

R语言-处理异常值或报错的三个示例

因此,对于在循环里,需要先单独合成data.frame,再使用rbind把各个data.frame合成在一起时,可以考虑增加异常值的赋值。如下面两段,如果我拉的网页里不存在product
2016年12月22日

R语言学习笔记之: 论如何正确把EXCEL文件喂给R处理

在上面的尝试已经发现,xlsx本身就是这个复杂问题的最根本原因。与之相反,R对csv等文本格式支持的很好,而且有fread这个神器,要处理一定量级的数据,还是得把xlsx转化为csv格式。
2016年12月21日

R语言抓取链家网数据

'http://cd.fang.lianjia.com/loupan/'name=area=price=type=address=status=NULLfor(i
2016年12月20日

借助caret包实现特征选择的工作

caret包中提供的封装法主要有3种,即递归特征删减法、遗传算法和蚁群算法。三种方法实现的函数分别是rfe(),gafs()和safs()。同样,我们来看看这三个函数的语法特征和参数含义:
2016年12月18日

【原创推荐】 使用R写入Excel方法总结

我们有很多选择能完成写入Excel文件任务,本文推荐两个在实践中较常用的R包:xlsx包和XLConnect包。这两个包作者都是通过Java来写入Excel文件,所以性能相对比较稳定。
2016年12月16日

【重磅推荐】 R语言阅读学习路线

R》这本书没有单纯的讲语法,而是和数据分析的流程结合了起来,从数据获取到数据整理再到分析和报告,有一气呵成的感觉,此外最后两章讲如何写稳健的R代码以及写包都是非常精彩的。
2016年12月15日

【推荐】R for Data Science 新书抢先看

本书目的:主要使读者能够掌握数据科学分析中重要的R语言工具。主要包括下面这些部分:数据导入、数据整理、数据转化、数据可视化、数据模型以及数据交互。如下图:
2016年12月14日

吉林说R系列 | 第六篇:分类问题

将class转换为因子,并赋予“良性(benign)”,“恶性(malignant)”标签。数据的70%作为训练集,剩余的30%作为验证集。设置随机种子,以便结果再现。
2016年12月12日

吉林说R系列 | 第五篇:数据管理

日期值通常以字符串的形式输入到R中,然后转化为以数值形式存储的日期变量。函数as.Date()用于执行这种转化。日期值的默认输入格式为yyyy-mm-dd。日期的常用格式详见(日期格式表)。
2016年12月6日

R语言| 使用REmap绘制超炫酷的地图

这个函数类似remap()函数,创建一个remap()函数对象,然后再由plot()函数输出并在浏览器中打开,只不过他俩对数据要求不一样,remapC()要求数据一列为地名,一列为数值。
2016年12月3日

万字案例+视频揭开民生银行阿拉丁大数据的神秘面纱

第三,底下绿色的线代表的是取款的情况,并不是取款机使用量越高取款量越高,像排名第一的ATM机,它虽然使用量很好,但是取款量并不是最高的。那反之,有的使用量虽然不高,但是取款量很大。那在银行,ATM
2016年12月1日

给我百小时!陪你掌握数据分析报告全系技能

对于非技术类数据分析人员,初级工具只推荐一个:EXCEL。推荐书籍为《谁说菜鸟不会数据分析》,基础篇必须学习,提高篇不一定学(可用其他EXCEL进阶书籍),也可以学习网上的各种公开课。
2016年11月29日

用户画像专题热力来袭!两位专家现身说法授绝招

第二个寒字:会员购买金额、购买频次、退货频次、退货金额、购物品牌数、退货品牌数与最近购物时间,您说的这些频次,金额,这些数据收集的工作量会很大,您们是如何简化这部分的工作,为后续的工作通用化?
2016年11月28日

知乎大神丹奕论道数据分析师自我修养之天龙八步

无论做数据分析的哪个方向,初级还是高级,都需要有快速学习的能力,学业务逻辑、学行业知识、学技术工具、学分析框架……数据分析领域中有学不完的内容,需要大家有一颗时刻不忘学习的心。
2016年11月24日

名侦探R语言,巧破交通事故黑点

通过对各个道路历史数据的分析,找出历史发生事故频率较大的道路作为黑点道路,对于经常发生事故的道路属于此类。如,取所有道路三年内的当量事故数作为历史数据,找出当量事故数较大的道路作为预定黑点道路;
2016年11月23日

日进斗金不是梦? 挥起神器R语言

specifyModel(t_radio(DIA)~T_ATR(DIA)+T_SMI(DIA)+T_ADX(DIA)+T_SAR(DIA)+runMean(Cl(DIA)))data_model
2016年11月23日

案例 | R语言+机器学习合璧,剑指商业应用 ?

因此之后我们请前端做了一个功能,当发现有一个使用者重复看了这商品两次,我们便让前端再打一次,这样就可以快速促进商品的销售,也就让机器学习的成果跟商业应用有实质的连结。
2016年11月22日

案例 | R语言快速深度学习进行回归预测

从上述卷积神经网络看出,学习过程中需要进行梯度迭代,真正在实现工业检测等实际应用时时间复杂度极高,因此学术界进行了优化,优化后的一种单层神经网络极限学习机解决了此问题,在过去应用十分广泛。
2016年11月22日

在Windows下R与Oracle的初次邂逅

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2016年11月22日

原创 | 太犀利!看我大R语言如何用主成分分析洞悉城管事件数据

T.DISTRICT_NAME,TO_CHAR(T.REVIEW_FIRST_DATE,'YYYYMM')")jixiao_data验证数据是否被提取,说明数据已经提取成功
2016年11月21日

用R分析林丹出轨事件

但是,网友们对林丹事件,可就不那么宽容了,毕竟是证据确凿,那么,站在道德立场,大家的口吻,还是很严厉的,主要都是批评林丹老婆都给你怀孕生孩子了,你还出轨,真心渣男啊~~~
2016年11月18日

R语言:ggplot2精细化绘图——以实用商业化图表绘图为例

这篇文章其实是我之前那篇博文的一个延续。因为接了一个活要用R定制化数据报表,其中涉及大量的对图表精雕细琢的工作。在深入研究ggplot2时,深深感觉到用ggplot2画图与用excel画图的不一样。
2016年11月18日

R语言-用R眼看琅琊榜小说的正确姿势

把两个有OR关系的中文字符分隔开,譬如grep(“靖王|景琰|水牛”,text,value=TRUE),会把段落里含有靖王或者景琰或者水牛这样的字样全部摘选出来。
2016年11月17日

【原创】揭秘老九门真正主角,看我利器R语言

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2016年11月15日

RStudio IDE,那些你容易忽视的技巧

最新版本1.0已经发布,经过多个重要版本的迭代,增加了很多核心功能:创建项目、R包创建等,同时也有很多小功能并不明显,本文主要简单展示一些容易忽略的功能。
2016年11月13日

R Views | 一个新的R学习社区

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2016年11月12日

案例 | 利用R语言对玩家付费行为进行深度挖掘

接下来,我们就简单来介绍下各种算法在用户消费数据中的使用场景(由于LTV偏向游戏数据,这边就不展开来讲,如果各位看官感兴趣,可以留意《R语言游戏数据分析》一书,这本书将在2017年初出版)。
2016年11月11日

案例 | 基于R语言钻石价格预测

右上:代表正态QQ图,说白了就是标准化后的残差分布图,如果满足正态假定,那么点应该都在45度的直线上,若不是就违反了正态性假定,开始和结尾是的角度数我不敢恭维,不过我们考虑加个非线性项进去;
2016年11月10日

用简单的文本处理方法优化我们的读书体验

尤其是在大家都说要多写代码,多看别人的代码,多积累代码功能块,但每次打开别人的代码,都对那成千上百的英文望而生畏,用程序去处理代码块,是否能得出一些规律,从更加客观敏捷的角度,做一些统计和分析呢?
2016年11月9日

案例 | 通过R对照片进行情绪分析

'https://www.whitehouse.gov/sites/whitehouse.gov/files/images/first-family/44_barack_obama[1].jpg'
2016年11月6日

利用R语言爬取视频网站数据

<-substr(teacher[i],gregexpr(">",teacher[i])[[1]][2]+1,gregexpr("<",teacher[i])[[1]][3]-1)}#
2016年11月4日

资讯 | RStudio 1.0版本正式发布

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2016年11月2日

中国R语言大会嘉宾教你shiny包应该这么用!

细心的看官已经发现,我们默认生成的图形是填充了整个主面板宽度(列宽是12)。如果我们想进行调整,例如想一半的宽度放置散点图,另一半的宽度放置选择的数据表,此时我们可以通过column函数实现。
2016年11月1日

用R抓取拉手网深圳地区的美食数据--增加商店地址信息

#org_priceresult<-data.frame(place=place,goods_name=goods_name,goods_text=goods_text,price=price,
2016年10月30日

Python VS R 语言?数据分析与挖掘场景选择?

数据结构方面,由于是从科学计算的角度出发,R中的数据结构非常的简单,主要包括向量(一维)、多维数组(二维时为矩阵)、列表(非结构化数据)、数据框(结构化数据)。而
2016年10月28日

R全球会议资讯

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2016年10月27日

通知 | R社区资源库下载调整

由于360官方宣布自2016年10月20日起取消个人云盘业务,对R语言中文社区资源库原有功能造成一定影响(原有下载链接已经失效),故而社区暂时做如下调整:
2016年10月21日

R语言的高质量图形渲染库Cairo

main="Plot-svg") dev.off() CairoSVG(file="Cairo-svg5.svg",width=6,height=6) biplot(corresp(m,
2016年10月13日

R语言量化投资常用包总结

R语言在金融领域提供了很多的金融计算框架和工具,当你具备金融理论知识和市场经验,你可以利用这些第三方提供的技术框架来构建自己的金融模型。我们可以从CRAN上找到各种的金融项目,访问R的官方网站
2016年10月12日

免费分享 | R极客社区资源库

国内最大的R语言专业学习平台,经过大量爱好者的无私共享及努力,R极客社区资源库更加完善、丰富,并永久免费分享。也希望大家一起来建设、维护我们的资源库,数据科学家之路,我们一起前行。
2016年10月8日

吉林说R系列——第四篇:如何学习R语言

R语言入门书籍的内容大部分都是相通的或者部分章节都内容是一样的。众多书籍中,一个新手应该怎样选择呢?首先,可以选择《R导论》中文版[1],这是一本关于R
2016年10月2日

哈佛大学录取倾向性分析

亚裔的SAT平均分数最高,超过2300;其次是南亚裔,2250分左右;白人SAT均分为2236,黑人与非洲裔为2165分,西班牙裔拉丁美洲最低,SAT均分是2156。亚裔学生的SAT是最高的有木有?
2016年9月27日

【致歉声明】R极客社区致歉知乎(作者)

本公众号于2016年9月8日未经授权转载了原创作者陈丹奕在知乎发表的文章,原文标题建模那点事儿(下),,在此对原文作者陈丹奕表示深深歉意,原文已删除。
2016年9月24日

吉林说R系列第三篇:数据的分布、处理及模拟

distribution),记为:X∼N(μ,σ2),其概率密度函数,期望值μ决定了其位置,标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线,标准正态分布是μ
2016年9月19日

吉林说R系列第二篇:如何进行数据读写

需要注意的是,foreign包只能读取STATA12及以下版本的数据,R如何读入STATA12版本以上的数据。可以加载readstata13或haven包。具体函数参数设置可以查看帮助文档。
2016年9月11日

R语言的股市人生

specifyModel(t_radio(DIA)~T_ATR(DIA)+T_SMI(DIA)+T_ADX(DIA)+T_SAR(DIA)+runMean(Cl(DIA)))data_model
2016年9月9日

R语言实现几种经典排序算法

选择排序是一种简单直观的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完。选择排序是不稳定的排序方法.
2016年9月7日

吉林说R图系列|第一篇:如何绘制各类图形(续上篇)

ggtitle("心形曲线图(填充颜色)\nx=16*sin(t)^3\ny=13*cos(t)-5*cos(2*t)-2*cos(3*t)-cos(4*t)")
2016年9月2日

吉林说R图系列|第一篇:如何绘制各类图形

"Sturges"):其中x是一个由数据值组成的数值向量,参数freq=FALSE表示根据概率密度而不是频数绘制图形,参数breaks用于控制组的数量。在定义直方图中的单元时,默认将生成等距切分。
2016年9月2日

15款工具,让你的数据变得更好看

Table,用户可以快速生成相惜的图表,图形或者地图。用户还可以将图表与其他人协作并支持使用共有数据或私有数据。英国的《卫报》(Guardian)也使用这个工具哦~
2016年7月28日

如何将Python和R整合进一个数据分析流程

此外,由于数据科学团队现在拥有一个比较广泛的技能库,任何应用程序所选择的编程语言都可能用到以前的知识和经验。对于一些应用,特别是原型设计和开发应用,人们使用他们已知的工具则速度会更快。
2016年7月27日

七种常用回归技术,如何正确选择回归模型?

回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。
2016年7月10日

R语言构建配对交易量化模型

假设两个金融产品在未来的时期会保持良好的均衡关系,一旦两者之间的价格走势出现背离,同时这种背离在未来会被进行修复,那么就可能产生套利的机会。对于配对交易来说,就是找到这样的机会,进行统计套利。
2016年4月4日

【女生节快乐】来自R社区的祝福!

国内最大的R语言学习分享平台,涵盖数据分析、数据挖掘、统计学、机器学习、人工智能等领域。立即关注,掌握R语言全球最新资讯与成果!
2016年3月7日

R极客社区

R极客社区(全称:R语言中文社区)旨在打造国内第一极客内容在线分享社区,一起创造、传播价值!R极客社区为非营利性爱好者社区,欢迎各行业精英爱好者加入我们,为广大R语言学习者创造更多价值!
2016年1月20日