表哥有话讲

其他

基于R的混合线性模型的实现

当遇到需削减同水平位置的随机因子时(比如两个随机因子需要舍弃一个时),应考虑所有情况,并将其和零模型作比较;优先保留与零模型有显著差异的模型;当比较都不显著时,优先考虑保留p较小的模型。
2018年12月24日
其他

R语言ETL工程系列:总论

本篇是R语言ETL工程系列的第一篇,这个系列我们将讨论如何使数据预处理简洁便捷,本系列的宗旨是让这个过程显得更加轻松,让初学者快速入门这些基本概念和操作。
2018年12月14日
其他

R与Python手牵手:多格式文件导入与爬虫

注意一定要定义参数file,否则默认条件下,fromJSON会把输入当成是json文本然后进行转化,而不是按照路径去找文件,读取文件后再转化。
2018年12月5日
其他

R与Python手牵手:数据探索性分析案例展示

data1[7],data1[8],data1[9],chrint(data1[10]),chrint(data1[11]),chrint(data1[12]),data1[13],\
2018年11月28日
其他

R与Python手牵手:数据的分组排序

pd.read_csv('G:/Py/introduction-datascience-python-book-master/files/ch02/educ_figdp_1_Data.csv',
2018年11月14日
其他

R与Python手牵手:数据框的构建、读取与基本描述

pd.read_csv('G:/Py/introduction-datascience-python-book-master/files/ch02/educ_figdp_1_Data.csv',
2018年11月5日
其他

R与Python手牵手:数据科学导论系列(包的载入)

,就是,把pandas模块导入(import)进来,然后在我们的环境中,用pd来调用pandas模块里面的内容。或者这么理解,我们把pandas大神请进来了,但是在我们的组织里面,给他的代号是pd.
2018年11月1日
其他

无缝对接Spark与R:Sparklyr系列—探讨属于数据科学家的Spark

然后,让我们放一点数据到Spark中。sparklyr和dplyr都有可以把R环境中数据框变量放进Spark的方法,我们都展示了一下。这里用base里面自带的两个数据集:cars和iris.
2018年10月24日
其他

R语言二分类问题案例分析:以泰坦尼克号沉船为例

如果数据中有一些属性含有大量缺失值,那么它对预测的贡献几乎为零,甚至具有不良的干扰。当然有的时候缺和不缺本来就是一种信息,但是这里我们无法深入判断。首先我们先看看是否有缺失值,有的话缺多少?
2018年10月18日
其他

精心整理 | R语言中文社区历史文章整理(类型篇)

ggplot2:可视化设计师的神器,了解一下【译】R包介绍:Online
2018年7月7日
其他

精心整理 | R语言中文社区历史文章合集(作者篇)

是国内最大的R语言学习平台。近20万R语言爱好者聚集地,欢迎投稿分享!
2018年7月3日
其他

精选 | 2018年5月R新包推荐

本文选摘了40个R包加以功能简述,有需要的爱好者可以自行下载帮助文档并安装使用。本文主要包括以下几个类别:计算方法、数据、数据科学、金融、数学、机器学习、音乐、科学、统计、时间序列、工具和可视化等。
2018年6月28日
自由知乎 自由微博
其他

深入探讨散点图系列

参数回归模型假定f的形式是已知的。曲线拟合(Curvefitting)是指选择适当的曲线类型来拟合观测数据,并用拟合的曲线方程分析两变量间的关系。绘图软件一般使用最小二乘法(Leastsquare
2018年6月26日
其他

Lesson 06 for Plotting in R for Biologists

是国内最大的R语言学习平台。近20万R语言爱好者聚集地,欢迎投稿分享!
2018年6月25日
其他

Lesson 05 for Plotting in R for Biologists

是国内最大的R语言学习平台。近20万R语言爱好者聚集地,欢迎投稿分享!
2018年6月23日
其他

五步构建经营指标,拒绝分析不接地气

然而大妈就是很老辣的,大妈知道想做生意就得真的和做生意的人交流,而不是在网上听键委们闲扯淡。所以大妈想卖煎饼的话肯定是直接和自己做煎饼的二姐去学。但是这里就涉及一个问题:如何确认这个生意是可以做的?
2018年6月22日
其他

三种方法在地图上绘制网络图

p_load(assertthat,tidyverse,ggraph,igraph,ggmap)
2018年6月21日
其他

tidyverse —— readxl包

一个提醒,因为本包不是tidyverse的核心包,所以,不像readr包一样,library(tidyverse)后就可以直接使用,还是要单独载入的。
2018年6月20日
其他

个人生活的量化分析(三):考研英语初探

本人目前正处于考研备考阶段,考研英语是考研中重要部分之一,所以每天在英语上花费了大量的时间。随着2005年-2014年的真题的客观题(客观题部分)一刷已经完成,第一阶段的英语复习也暂告一段落。
2018年6月20日
其他

统计挖掘那些事(六)——强大的逻辑回归(理论+案例)

Summary,我们知道我们一共使用了32561条记录构建模型,其中所有记录无缺失;由于自变量与因变量都含有分类变量,因此需要进行编码。其中因变量,我们把收入水平>50k设为1,收入水平
2018年6月19日
其他

独家分享--48页PPT解密数据可视化!

香港理工大学助理研究员,Excel教程《Excel数据之美》作者;Excel图表插件EasyCharts开发者,十余篇SCI论文的水货达人;微信公众号EasyCharts联合创始人;预计
2018年6月19日
其他

构建自己的地理信息空间数据库及与客户端简单交互(内含彩蛋)

工具打开postgresql数据库,并可以新建一个引用空间数据表模板的测试库,这一步也有一个坑,在新建引用模板的测试库之后,一定要先按照官网给的步骤在测试库中运行以下脚本:
2018年6月18日
其他

从代码到300优质客户,用户画像在销售的实战应用

艺术照。就是照骗,P图P的连亲妈都不认识,但是反映了你内心最期待的画面。当需要做品牌推广或者产品植入的时候,是最需要这种能够透过现象,触及用户情感的用户画像。
2018年6月16日
其他

时间序列深度学习:状态 LSTM 模型预测太阳黑子(中)

模型,我们选择并可视化最近一期的分割样本(Slice11),这一样本包含了最新的数据。
2018年6月15日
被用户删除
其他

时间序列深度学习:状态 LSTM 模型预测太阳黑子(上)

LSTM(长短期记忆)的特殊类型深度学习模型,该模型对涉及自相关性的序列预测问题很有用。我们分析了一个名为“太阳黑子”的著名历史数据集(太阳黑子是指太阳表面形成黑点的太阳现象)。我们将展示如何使用
2018年6月15日
其他

统计挖掘那些事(五)--(理论+案例)如何通俗地理解极大似然估计?

值得注意的是,在极大似然估计中,我们是假定了随机误差需要服从正态分布,这也提示我们,对于极大似然估计,我们的结果是对我们对于随机变量所假设的概率分布有依赖性的,因此也就要求我们要有一定的先验知识。
2018年6月14日
其他

你所知的最有价值(最有效)的思维方法是什么?

和how是需要一对其他分析方法往里填充的。5w2h就七个格子七句话,sowt就四个格子四句话,这是学《市场营销》的本科生交课堂作业的方式哈。有机会可以拿一个具体案例和做数据分析的同学们分享。
2018年6月14日
其他

基于ggplot2网络可视化(二)

library(ggplot2)library(GGally)library(geomnet)library(ggnetwork)library(network)
2018年6月13日
其他

ggplot2:可视化设计师的神器,了解一下

首先,好上手。跟python比起来,适合没有学过编程语言的人,但对有编程背景的人来说可能会觉得R的代码逻辑很奇怪。ggplot2更是R语言里面,最好学习的包,可能有之一😂。在《R
2018年6月13日
其他

为什么这么多文科生想转行做 IT?

作者:陈老师,在咨询行业打拼了9年,在如何诊断经营问题、建立分析体系、解决专项问题上有超过30个大型项目积累与实战,天善智能特邀专家。
2018年6月12日
其他

ggplot2都有哪些使用不多但是却异常强大的图层函数

要说ggplot2中那些使用不多但是却功能强大的图层函数,我首先想到的就是geom_rect、geom_linerange、geom_segment、geom_ploygon。
2018年6月11日
其他

文本主题发现(一)-- 数据预处理

(3)文档-词条矩阵(数据矩阵)建立:语料库+特征词+生成矩阵+稀疏矩阵处理
2018年6月11日
其他

天气太热业绩差,除了设坛求雨外,数据分析师还能干啥?

实际上,陈老师就做出全年节日清单给到过销售部门,做法相当简单:节日时间—热销产品SKU—对应业绩。但相当受销售欢迎,因为确实非常实用啊。这样通过简单分析能取得信任和口碑的事情,做的越多越好。
2018年6月10日
其他

基于ggplot2的网络可视化(1)

library(ggplot2)library(GGally)library(geomnet)library(ggnetwork)library(“network”)
2018年6月9日
其他

R 语言之数据分析「Resampling」

个受试者的分数的分配应该是任意的。这么讲你可能还是不太理解,其实在原假设成立的前提下,我们把两种方案的总体视为等价的,那么我们同样也可将这两个方案的总体视为同一个总体,这样的话,10
2018年6月8日
其他

身为数据分析师,却被业务当做取数机?

被业务呼来喝去的跑数据,是做数据分析的同学一个极大的痛点。出力不讨好不说,自己还没啥成长。如果扒皮抽筋看真相,你会发现这压根就不是个技术问题,而是政治地位的问题。是数据分析到底在公司里算老几的问题。
2018年6月7日
其他

Lesson 04 for Plotting in R for Biologists

是国内最大的R语言学习平台。近20万R语言爱好者聚集地,欢迎投稿分享!
2018年6月6日
其他

统计挖掘那些事(四)-9个相关R先生的故事(理论+动手案例)

如我们在F检验中所讨论的,在整个分解式中,回归平方和(SSR)反映的是能够通过自变量x解释的部分,因此非常直观地,我们可以认定回归平方和所占的比重越大,则残差平方和越小,就越能证明回归的效果越好。
2018年6月5日
其他

学习数学到底有什么用?

补充:评论区还有同学不信,给外地的同学解释一下,因为珠江新城是广州的CBD,所以一听到CBD,就有同学自然而然的不淡定了。是滴,CBD怎么可能买的起啊!然鹅,大家猜猜哪个是我买的??
2018年6月5日
其他

tidyverse —— readr包

Science一书,http://r4ds.had.co.nz/data-import.html#getting-started。
2018年6月4日
其他

什么样的领导最难搞定?

只要领导知道自己想要什么,就容易搞掂很多了。以我9年来对多个行业形形色色的领导的观察,发现其实可以用两个简单的维度来区分这些有目标的领导:
2018年6月3日
其他

Lesson 02&03 for Plotting in R for Biologists

Lesson02主要讲了如何从Excel导入数据以及如何从UCSC、ENSEMBL和RENCODE上下载数据,因此我就将Lesson02并入Lesson03一起讲了。
2018年6月2日
其他

脏数据-数据量纲差异

是国内最大的R语言学习平台。近20万R语言爱好者聚集地,欢迎投稿分享!
2018年6月1日
其他

R语言ggplot2地理信息可视化(下)

Map)是一种通过在地理背景上绘制相同大小的点来表示数据在地理空间上分布的方法。点数据描述的对象是地理空间中离散的点,具有经度和纬度的坐标,但是不具备大小的信息,比如某区域内的餐馆、公司分布等。
2018年5月31日
其他

如何着手分析一个行业?

分享一个教科书式的方法,人人都可以学习。一提到教科书式方法,之前几位答主都有意绕开了。实际上教科书式的方法比大家讲的土办法还要简单。只不过是,教科书也是分给学生看的,还是给企业里的人看的。
2018年5月31日
其他

开发基于GUI的R包(2)

生成的文档在\man目录下,此例中生成了Ricetl.Rd,......文件。关于roxygen2的使用可以参考详细的教程。
2018年5月30日
其他

那些河南美食背后,深藏的经营道理

水煎包:类似上海的生煎包、陕西的锅贴、武汉的煎饺,但是比这几个都好吃。因为是两面煎的。师傅把形如饺子的包子一列列放在平底锅里,用一个细长的铲子铲起来翻面,两面都能煎的又酥又香。然而现在已基本绝迹。
2018年5月30日
其他

做了那么多营销,为什么没有效果?

A类自然购买的可能性就很高(有购买力,促销敏感,高关联度),因此派的券额度相对较小,以信息推送为主。A类用户名单直接派给各级渠道,除了短信外要求渠道主动联系顾客,邀约顾客参加。
2018年5月29日