数据分析1480

其他

Pandas模块,我觉得掌握这些就够用了!

去除birthday、start_work和other变量df.drop(['birthday','start_work','other'],
2019年8月28日
其他

数据分析面试中需要你必知必会的内容 !

test分析。⑤运行试验:此时,网站或应用的访问者将被随机分配控件或变体。测量,计算和比较他们与每种体验的相互作用,以确定每个用户体验的表现。⑥分析结果:实验完成后,就可以分析结果了。A
2019年8月18日
其他

经验之谈,这16个Excel函数,几乎可以解决80%的数据统计工作!

在日常工作中,数据统计是工作中最重要的一部分。今天把Excel中最常用的统计函数整理了出来,共16个。为了方便同学们理解,选取的全是贴近应用的示例。1、Count
2019年8月9日
其他

这100多个数据分析常用指标和术语你都分清楚了吗?

有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把这类些名词概念搞混,导致结果不准确。数据分析相关概念多且杂,容易搞混。为了便于大家区分,今天小编就来盘点一下数据分析常用的术语解释。建议大家收藏起来方便查看。按照以下三类进行汇总。1、互联网常用名词解释2、统计学名词解释3、数据分析名词解释一、互联网常用名词解释1、PV(Page
2019年8月3日
其他

while循环与for循环到底差在哪里?举几个例子给你看!

前言在上一期原创文章《for循环太Low?分享几段我工作中经常使用的for代码!》中,我介绍了几段工作中常用的for循环代码,这期再简单介绍一下while循环与for循环的差异。在作者看来,while循环与for循环的最大区别在于,while循环是基于条件判断的循环,而for循环则是基于容器的循环。对于while循环来说,当条件满足时,将一直处于循环状态,除非碰见break关键词;对于for循环来说,当容器内的元素没有迭代结束,则一直处于循环状态,同样碰见break关键词时也会退出循环。所以,在做循环问题时,首先自问循环过程中有没有明确的迭代对象(即容器),然后再根据判断结果,选择优先方案,即如果有迭代对象,则优先使用for循环,否则优先使用while循环。相信读者在后文的循环实操中,能够感受到优先所带来的便捷。while循环示意图及语法为帮助读者理解while循环的逻辑,我将循环逻辑绘制成了下方的示意图,读者可以慢慢体会一下它与for循环的差异:如上图所示,当数据输入后,会立马进入条件判断,如果条件满足,则进入循环体,并继续下一轮的循环,直到条件不满足时,退出循环。所以,根据该逻辑,可以将while循环的语法表示如下:#
2019年8月2日
其他

Python要上天啊!一行代码就可以搞定炫酷的数据可视化!

前言学过Python数据分析的朋友都知道,在可视化的工具中,有很多优秀的三方库,比如matplotlib,seaborn,plotly,Boken,pyecharts等等。这些可视化库都有自己的特点,在实际应用中也广为大家使用。plotly、Boken等都是交互式的可视化工具,结合Jupyter
2019年7月31日
其他

超全Python速查表,GitHub标星4600+

GeneratorType更多情况下,直接就是代码,比如Operator模块:比如Curses库:干脆利落,丝毫不拖泥带水。东欧小哥打造打造这份资源的,是一位名为Jure
2019年7月29日
其他

for循环太Low?分享几段我工作中经常使用的for代码!

前言不管是for循环还是while循环,都是任何一门语言的基础知识,同时也是非常重要的知识。借助于循环的策略,可以将很多重复性的问题完美地解决。在Python中,大家可能对她的印象是“Python不适合使用循环,因为效率低,速度慢!”,但是本文中将重点介绍她,并跟大家分享我工作常用的几段代码示例(如果你想实操,文末有数据下载链接)。for循环示意图可以有部分朋友还不太清楚for循环的工作机制,这里画一个简单的示意图,希望读者能够理解她的逻辑。如上图所示,图中包含for循环过程中的三个部分,分别是漏斗、漏斗内的元素以及漏斗以下的结构,这三个部分构成了for循环的核心。读者可以将图中的三个核心内容分别理解为容器对象(即Python中的基础数据结构,如字符串、列表、元组和字典等)、容器内的元素以及循环体。上图中,左右两个示意图的唯一区别在于,for循环的循环体是否包含if分支判断。案例1:多数据文件的合并如下图所示,本地目录内包含需要读取的多个数据文件,它们均为csv格式或txt格式,且数据结构相同。该如何基于Python的for循环语句实现数据的读取与合并呢?#
2019年7月24日
其他

2个多月近600页的数据分析与挖掘PPT终于整理完啦

声明:本次分享的近600页PPT材料来源于《从零开始学Python数据分析与挖掘》,欢迎大家阅读和分享。首先要感谢的是11所高校的一线教师,他们在教学过程选择了我的新书,同时也提出了一些宝贵的建议。其次要感谢的网友读者朋友,他们在阅读过程中也详细地指出了书中的一些错误,这些错误也都整合到了一个勘误集里面,大家可以前往下载。最后要感谢的是我身边的朋友和同事,他们将新书又一次地推荐给了他们身边的朋友。为表示感谢,自己在两个多月的努力下,将书中的核心内容做了整合与排版,以PPT的形式分享给大家,前后一共包含近600页的内容。这样做主要是出于两方面的考虑,一方面可以方便高校一线教师的教学,另一方面也可以方便读者朋友快速掌握书中的核心内容。在这两个多月中,由于忙于PPT的梳理和整合,导致了公众号原创文章数量的下降,还望读者朋友们的谅解。另外,还有一个好消息需要跟大家分享,那就是在7月份,我的第二本新书也即将上市,这是一本关于数据分析中工具实操的书籍,到时候也会在公众号送出福利,期待大家的关注和参与。最后,截图一些PPT的内容,以供大家参阅。在文末也有PPT材料的下载链接,如你在阅读过程中遇到任何问题都可以公众号留言或微信私聊我。PPT下载链接:链接:https://pan.baidu.com/s/1VVUpvElBjhTf5RUOempzpg提取码:kxnu
2019年6月27日
其他

从零开始学Python【17】--matplotlib(面积图)

这就是绘制分组的折线图思想,虽然折线图能够反映各个渠道的运输量随月份的波动趋势,但无法观察到1月份到8月份的各自总量。接下来我们看看面积图的展现。
2017年10月11日
其他

从零开始学Python【16】--matplotlib(雷达图)

虽然matplotlib模块没有封装好的雷达图命令,但pygal模块则提供了更加简单的雷达图函数,我们也尝试着借助这个模块实现雷达图的绘制。
2017年10月10日
其他

使用Python探索二手车市场(含代码)

上面的直方图,其实质反映的就是等间距的条形图。如果需要自定义价格范围,然后基于这个范围再作条形图的绘制,该如何操作呢?这里需要借助于pandas模块中的cut函数,将连续的数值切割成不同的数据段:
其他

什么?你了解二手车市场?(含爬虫代码)

以奥迪品牌为例,我们需要知道这种品牌的二手汽车大概有多少辆,说白了就是要获取奥迪二手车一共有多少页信息。所以,我们需要获取各个品牌车辆各有多少页,然后再根据页数生成要抓取的链接URL;
自由知乎 自由微博
其他

从零开始学Python【15】--matplotlib(散点图)

绘制这样的分组散点图是不是也非常的简单呀,而且关于图的属性,可以想怎么设置就怎么设置。从图中可以发现,三种花的花瓣长度与宽度之间都存在正向的关系,只不过品种setasa的体型比较小,数据点比较聚集。
其他

从零开始学Python【14】--matplotlib(折线图)

由于x轴是日期型数据,当数据量一多的时候,就会导致刻度标签的重叠或拥挤,为了防止重叠的产生,我们需要让日期型的x轴刻度标签自动展现,从而避免重叠的现象。下面两幅图是对比自动刻度标签的前后变化:
其他

“每天进步一点点2015”公众号历史文章目录

积土成山,积水成渊!!定期与大家分享数据分析和挖掘方面的干货,包括分析工具R与Python的使用、数据分析的案例、及最新的数据领域资讯。
其他

从零开始学Python【13】--matplotlib(直方图)

上图绘制的是年龄的频数直方图,从整体的分布来看,有点像正态分布,两边低中间高的倒钟形状。除此,我们还可以绘制累计频率直方图,并且设置5岁为组距,如下代码可以表示成:
其他

从零开始学Python【12】--matplotlib(箱线图)

积土成山,积水成渊!!定期与大家分享数据分析和挖掘方面的干货,包括分析工具R与Python的使用、数据分析的案例、及最新的数据领域资讯。
其他

从零开始学Python【11】--matplotlib(饼图)

用于突出显示大专学历人群colors=['#9999ff','#ff9999','#7777aa','#2442aa','#dd5555']
其他

从零开始学Python【10】--matplotlib(条形图)

由于matplotlib对中文的支持并不是很友好,所以需要提前对绘图进行字体的设置,即通过rcParams来设置字体,这里将字体设置为微软雅黑,同时为了避免坐标轴不能正常的显示负号,也需要进行设置;
其他

Python自定义函数的参数解读

积土成山,积水成渊!!定期与大家分享数据分析和挖掘方面的干货,包括分析工具R与Python的使用、数据分析的案例、及最新的数据领域资讯。
其他

近7年上海天气数据抓取和分析(含代码)--分析部分

加载第三方包library(lubridate)library(dplyr)library(ggplot)library(gridExtra) #
其他

近7年上海天气数据抓取和分析(含代码)--爬虫部分

发现没有,网页中8.1日的天气数据全都包含在ul这个标签内,而这个标签的父级标签是红框中的div标签。只要锁定这两个标签,就可以快速的将网页中天气数据抓下来。
其他

【干货】-- 带你抓取并分析知乎高评分电影

积土成山,积水成渊!!定期与大家分享数据分析和挖掘方面的干货,包括分析工具R与Python的使用、数据分析的案例、及最新的数据领域资讯。
其他

从零开始学Python【9】--pandas(数据框部分04)

、创建哑变量和连续数值的区间化的操作。前两个操作在数据库中是非常常用的,即将多个数据集纵向合并和横向的扩展;后两个操作在数据建模中会经常用到,即离散变量的哑变量化处理和连续变量的分段处理。
其他

从零开始学Python【8】--pandas(数据框部分03)

今天我们的内容就介绍到这边,欢迎大家拍砖。下期我们来聊聊pandas模块的数据框DataFrame第四部分。主要涉及多个数据集之间的合并和连接、哑变量生成和连续数值的区间化操作。
其他

从零开始学Python【7】--pandas(数据框部分02)

接着上一期的pandas模块介绍与应用,今天我们来聊聊如何借助于pandas模块进行数据的预处理,内容包括数据集变量与观测的筛选、变量的重命名、数据类型的变换、排序、重复观测的删除、和数据集的抽样。
其他

从零开始学Python【6】--pandas(数据框部分01)

今天我们的内容就介绍到这边,欢迎大家拍砖。下期我们来聊聊pandas模块的数据框DataFrame第二部分。主要涉及变量、观测的筛选;变量的重命名;数据类型的变换;排序和数据集的去重。
其他

一个10年翻400倍的投资策略 |python量化系列

这个策略其实非常简单,简单到只用了一个选股条件。但是这个选股条件在众多其他条件中,却是最强的一个。至少我个人寻寻觅觅这么多年,回过头来发现,还是没有一个单独的选股条件比它更强。
其他

从零开始学Python【4】--pandas(序列部分)

没错,只要借助于unique函数(与R语言一样的函数)实现序列的排重,获得不同的水平值;通过使用value_counts函数(对应于R语言的table函数)对各个水平进行计数,并按频次降序呈现。
其他

从零开始学Python【4】--numpy

这里个人比较推荐使用genfromtxt函数进行外部数据的读取。切记,loadtxt函数和genfromtxt函数读入数据形成数组,故必须要求读进来的数据一定是数值型数据,否则会报错。
其他

从零开始学Python【3】--控制流与自定义函数

在Python编程中控制流和自定义函数是用的非常频繁的语句,通过控制流完成各种判断、循环等处理;通过自定义函数实现个性化的问题解决。今天我们就来讲讲Python中的控制流和自定义函数。
其他

从零开始学Python--数值计算及正则表达式

积土成山,积水成渊!!定期与大家分享数据分析和挖掘方面的干货,包括分析工具R与Python的使用、数据分析的案例、及最新的数据领域资讯。
其他

从零开始学Python--数据类型及结构

字典中更新键对应的值,既可以使用索引的方式,也可以使用update方法,但update方法中的参数一定是一个字典。如果该字典的键在dict3中存在,则操作改的动作,否则完成增加键值对的使命。
其他

教你使用常用的字符串处理方法

介绍完上面常用的4种字符串处理方法,接下来我们来讲讲正则表达式都有哪些?常用的正则含义如下图所示,字符串的规律(正则表达式)可以通过这些元字符的组合体现。
其他

手把手教你批量读取数据文件

曾经有网友问我如何读取磁盘中数个文件的数据,并把这些数据合并到一张数据表中。这期就跟大家讲讲如何完成如下四种情况的文件批量读取:
其他

教你明白啥是朴素贝叶斯分类器

有关朴素贝叶斯分类器的理论部分就讲解到这里,希望读者能够理解,如果您还有不明白的地方可以给我留言。接下来我们就看一下,在R语言中,是如何实现朴素贝叶斯算法的落地的。
其他

干货--基于词库的情感分析

积土成山,积水成渊!!定期与大家分享数据分析和挖掘方面的干货,包括分析工具R与Python的使用、数据分析的案例、及最新的数据领域资讯。
其他

knn到底咋回事?(修改版)

对于含缺失值的样本距离可能会稍微复杂一点,但好在三种情况的距离都可以计算。现在还存在最后一个难题,即knn算法中的k如何确定?到底该选择最近的几个点才合适?这个问题一旦解决,knn便可自如行走。
其他

干货--线性回归模型与CART树的比较

之所以需要这些假设,是因为线性回归的参数确定是通过最小二乘法得到的。如果线性回归的这些前提假设不能得到保证,那出来的结果也是一种伪回归,故需要针对这些假设前提给予相应的解决办法。
其他

干货--C5.0与CART算法实战

积土成山,积水成渊!!定期与大家分享数据分析和挖掘方面的干货,包括分析工具R与Python的使用、数据分析的案例、及最新的数据领域资讯。
其他

浅谈C5.0与CART算法的比较--理论理解

其中,k为待剪子树中叶节点的个数,pi为第i个叶节点所含样本量占子树所含样本量的比例,ei为第i个叶节点的估计误差,oi为第i个叶节点的错判损失,e为父节点的估计误差,o为父节点的错判损失。
其他

(干货)数据分析案例--以上海二手房为例

正如本文的题目一样,我要分析的是上海二手房数据,我想看看哪些因素会影响房价?哪些房源可以归为一类?我该如何预测二手房的价格?可我手上没有这样的数据样本,我该如何回答上面的问题呢?
2016年12月27日
其他

通过Python抓取天猫评论数据

ratecontent.extend(re.findall(re.compile('"rateContent":"(.*?)","rateDate"'),content))
2016年12月22日
其他

借助caret包实现特征选择的工作

我们使用R中的caret包进行特征选择,该包也为我们提供了封装和过滤两种方法进行特征选择,首先来看看相对简单的过滤法,过滤法的实现可以使用caret包中的sbf(select
2016年12月17日
其他

使用Python实现豆瓣阅读书籍信息的获取

3)回到下方的网页源代码,逐个展开你就会发现具体的类、标签所对应的书本信息,而且最下方也会显示div.info的字样哦。这个字样就是告诉你,这一本书的内容全部包含在class为info的标签里面。
其他

利用Python读取外部数据文件

csv文本文件是非常常用的一种数据存储格式,而且其存储量要比Excel电子表格大很多,下面我们就来看看如何利用Python读取csv格式的数据文件:
其他

Python数据分析之pandas学习(二)

替补法:对于连续型变量,如果变量的分布近似或就是正态分布的话,可以用均值替代那些缺失值;如果变量是有偏的,可以使用中位数来代替那些缺失值;对于离散型变量,我们一般用众数去替换那些存在缺失的观测。
其他

Python数据分析之pandas学习(一)

在我看来,序列或数据框的索引有两大用处,一个是通过索引值或索引标签获取目标数据,另一个是通过索引,可以使序列或数据框的计算、操作实现自动化对齐,下面我们就来看看这两个功能的应用。
其他

教你使用caret包(一)--数据预处理

这6个部分,我争取在3期中逐一讲解,本篇仅涉及caret包中的数据预处理和数据分割两个部分。首先来看看caret是如何实现数据的预处理,关于这部分,主我将从如下主要的6个方面介绍: