数据挖掘工程师

其他

再见,pandas!

墙裂推荐一个原创的pandas教程。有了这个教程学习pandas变得非常简单,掌握各种进阶骚操作轻松拿捏数据分析。针对pandas有入门、进阶、刷题三大图文及配套代码。除此外,还额外提供了Numpy、正则、pip操作等图文指南,图文列表如下:《pandas快速入门》⭐⭐《pandas进阶宝典》⭐⭐⭐⭐⭐《pandas进阶题库》⭐⭐⭐《Numpy速查手册》⭐⭐⭐《正则表达式手册》⭐⭐《pip命令行操作指南》⭐⭐如何使用?1、《pandas快速入门》主要是给刚入门的小白看的,目的是花最短的时间了解pandas是什么样的,建立初步的认识和感觉。如果已经有了一定基础,可以直接忽略。2、《pandas进阶宝典》这是一个近500页的原创小册子,分为基础篇、进阶篇、实战篇。超详细用法分类和进阶玩法,80%图解内容,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析非常适合初学者进一步了解和掌握高级用法,同时也可作为工作中的查询手册,我自己一直在用,效率非常高。以下是部分内容展示。>详解内容介绍可参考:pandas进阶宝典3、《pandas进阶题库》该图文大部分的问题主要都是由pandas交流群成员提出的,所有问题均是真实需求,东哥花了些时间进行了分类和解决方法的整理。目的是让小伙伴在有了一定基础后可以刷题,在实际需求中解决问题,从而快速熟练掌握各种技巧和方法。以下是部分内容展示。后续随着交流群不断出现新问题,会持续同步更新到题库中进行分类,最终会形成百题宝典。4、《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
2023年10月11日
其他

收藏!14 种异常检测方法总结

Path的第一个元素是F、第二个是E。离E最近的点为D所以第三个元素为D,接下来离D最近的点为C和G,所以第四和五个元素为C和G,最后离C最近的点为B,第六个元素为B。所以整个流程下来,F的SBN
2022年6月12日
其他

2021科大讯飞-车辆贷款违约预测赛事 Top1方案(Python代码)

3的,后面8月开始由于工作太忙,复赛开始之后就一直没有提交,说到底还是自己时间管理能力太菜了。就看看国庆期间能不能有时间再做一下吧)再说回这个比赛:数据量的话还是可以的,其中
2022年5月13日
其他

10 种聚类算法的完整 Python 操作示例

来源:海豚数据科学实验室分享一篇关于聚类的文章,10种聚类介绍和Python代码。聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在
2022年5月9日
其他

为什么回归问题用MSE?

作者:Matrix.小泽直树来源:https://zhuanlan.zhihu.com/p/463812174最近在看李沐的实用机器学习课程,讲到regression问题的loss的时候有弹幕问:“为什么要平方?”如果是几年前学生问我这个问题,我会回答:“因为做回归的时候的我们的残差有正有负,取个平方求和以后可以很简单的衡量模型的好坏。同时因为平方后容易求导数,比取绝对值还要分情况讨论好用。”但是经过了几年的科研以后,我觉得这样的回答太过于经验性了,一定会有什么更有道理的解释,于是在知乎上搜了搜。《CC思SS:回归模型中的代价函数应该用MSE还是MAE[1]》
2022年5月2日
其他

时序特征相关系数的稳定性分析(附代码)

在时序中,特征也许是具有时效性的,比如在某些市场环境下,股票的收益更看重公司的市盈率,另外的行情时,有看重换手率。本质上,可以反映为:在时间上,特征与目标变量之间相关性的不稳定,为此,我们能做一些相关性分析,帮我们找到这些时间上不稳定的特征,剔除它们,并让模型更加鲁棒。这里,直接上例子:import
2022年5月1日
其他

时间序列预测方法汇总:从理论到实践(附Kaggle经典比赛方案)

等冗杂在一起,建立更强力的模型。图源:https://www.kaggle.com/c/avito-demand-prediction/discussion/59880理论篇:[干货]
2022年4月24日
其他

卷积神经网络数学原理解析

通过核卷积得到边缘[原图像:https://www.maxpixel.net/Idstein-Historic-Center-Truss-Facade-Germany-3748512]
2021年11月16日
其他

LightGBM 原理、代码最全解读!

来进行实例讲解。该房价预测的训练数据集中一共有列,第一列是Id,最后一列是label,中间列是特征。这列特征中,有列是分类型变量,列是整数变量,列是浮点型变量。训练数据集中存在缺失值。import
2021年11月14日
其他

15种顶级分析思维模型。

及时的反馈——对进步的满足感。为何游戏如此受欢迎,就是游戏的设计满足心流理论,如果游戏的定义扩大,把学习、工作、运动、教育包含进来,去评估自己在做的事是否满足心流三点,这样自然会过得幸福快乐。3.
2021年10月31日
其他

从梯度下降到 Adam!一文看懂各种神经网络优化算法

来源丨量子位什么是优化算法?优化算法的功能,是通过改善训练方式,来最小化(或最大化)损失函数E(x)。模型内部有些参数,是用来计算测试集中目标值Y的真实值和预测值的偏差程度的,基于这些参数,就形成了损失函数E(x)。比如说,权重(W)和偏差(b)就是这样的内部参数,一般用于计算输出值,在训练神经网络模型时起到主要作用。在有效地训练模型并产生准确结果时,模型的内部参数起到了非常重要的作用。
2021年10月30日
其他

图解 NumPy,理解数组最形象的教程!

写入即可。下图是一个图像文件的片段:如果图像是彩色的,则每个像素由三个数字表示——红色、绿色和蓝色。在这种情况下,我们需要一个三维数组(因为每个单元格只能包含一个数字)。因此彩色图像由尺寸为(高
2021年10月17日
其他

只懂线性回归?来看看贝叶斯回归和高斯过程回归

投影到更高维的空间中,从而将非线性问题转化为线性问题,再采用贝叶斯线性回归的流程去解决。我们定义从低维空间到高维空间的非线性转换为:,。此时模型变成:也就是说,我们将贝叶斯线性回归得到的结论中的
2021年10月12日
自由知乎 自由微博
其他

数据可视化的 30 个小技巧

来源:DataHunter优秀的数据可视化图表只是罗列、总结数据吗?当然不是!数据可视化其真正的价值是设计出可以被读者轻松理解的数据展示,因此在设计过程中,每一个选择,最终都应落脚于读者的体验,而非图表制作者个人。这里给大家总结了数据可视化的制作的30个小技巧,通过列举一些容易被忽略的常见错误,最终能够快速提升和巩固你的可视化制作水平。一、你不得不注意的图表制作小技巧1.条形图的基线必须从零开始条形图的原理就是通过比较条块的长度来比较值的大小。当基线被改变了,视觉效果也就扭曲了。2.使用简单易读的字体有些时候,排版可以提升视觉效果,增加额外的情感和洞察力。但数据可视化不包括在内。坚持使用简单的无衬线字体(通常是Excel等程序中的默认字体)。无衬线字体即是那些文字边缘没有小脚的字体。3.条状图宽度适度条形图之间的间隔应该是1/2栏宽度。4.使用2D图形虽然他们看起来很酷,但是3d形状可以扭曲感知,因此扭曲数据。坚持2
2021年10月10日
其他

如何通俗的理解协方差、相关系数?

easy!有了这个机器学习画图神器,论文、博客都可以事半功倍了!深度学习必须掌握的
2021年10月3日
其他

神经网络的5种常见求导,附详细的公式过程

,然后把各个w看成相互独立,最后根据链式法则求得对应的gradient,即由于这里是将RNN按照时序展开成为一个神经网络,所以这种求gradient的方法叫Backpropagation
2021年9月28日
其他

用 Python 画如此漂亮的专业插图 ?简直 So easy!

。废话不多说,上图就是王道。(下面图片来源网络)有人可能会说需要复杂的设置,其实也不用。比如上边这幅图,只需要多加一个参数就好:cmap=brewer2mpl.get_map('RdBu',
2021年9月25日
其他

有了这个机器学习画图神器,论文、博客都可以事半功倍了!

张。对于复杂的模型架构来说,套模板显然事半功倍,比亲手画图要便捷得多。比如,画出卷积操作的示意图:使用该模板重现一些经典架构也是得心应手,比如下图是使用该模板绘制的
2021年9月23日
其他

深度学习必须掌握的 13 种概率分布

分布(连续)代码:https://github.com/graykode/distribution-is-all-you-need/blob/master/student-t.pyt
2021年9月21日
其他

为什么贝叶斯统计如此重要?

即使对于一个非数据科学家来说,贝叶斯统计这个术语也已经很流行了。你可能在大学期间把它作为必修课之一来学习,而没有意识到贝叶斯统计有多么重要。事实上,贝叶斯统计不仅仅是一种特定的方法,甚至是一类方法;它是一种完全不同的统计分析范式。为什么贝叶斯统计如此重要贝叶斯统计为你提供了在新数据的证据中更新你的评估工具,这是一个在许多现实世界场景中常见的概念,如跟踪大流行病,预测经济趋势,或预测气候变化。贝叶斯统计是许多较著名的统计模型的支柱,如高斯过程。重要的是,学习贝叶斯统计原理可以成为你作为一个数据科学家的宝贵财富,因为它给你一个全新的视角来解决具有真实世界动态数据来源的新问题。这篇文章将介绍贝叶斯统计的基本理论,以及如何在Python中实现一个简单的贝叶斯模型。目录表:01
2021年9月18日
其他

LightGBM+OPTUNA超参数自动调优教程(附代码框架)

最近在kaggle上有一个调参神器非常热门,在top方案中频频出现,它就是OPTUNA。知道很多小伙伴苦恼于漫长的调参时间里,这次结合一些自己的经验,给大家带来一个LGBM模型+OPTUNA调参的使用教程,这对可谓是非常实用且容易上分的神器组合了,实际工作中也可使用。关于LightGBM不多说了,之前分享过很多文章,它是在XGBoost基础上对效率提升的优化版本,由微软发布的,运行效率极高,且准确度不降。目前是公认比较好,且广泛使用的机器学习模型了,分类回归均可满足。关于调参,也就是模型的超参数调优,可能你会想到GridSearch。确实最开始我也在用GridSearch,暴力美学虽然好,但它的缺点很明显,运行太耗时,时间成本太高。相比之下,基于贝叶斯框架下的调参工具就舒服多了。这类开源工具也很多,常见的比如HyperOPT。当然今天主角不是它,而是另外一个更香的OPTUNA,轻量级且功能更强大,速度也是快到起飞!因为需要用
2021年9月15日
其他

我的XGBoost学习经历及动手实践

hogwild”并行性,因此每次运行都产生不确定的解决方案。coord_descent:普通坐标下降算法。同样是多线程的,但仍会产生确定性的解决方案。feature_selector:默认=
2021年9月12日
其他

4W字,最强 Matplotlib 实操指南!

二维直方图和分桶正如前面我们可以在一维上使用数值对应的直线划分桶一样,我们也可以在二维上使用数据对应的点来划分桶。本节我们介绍几种实现的方法。首先定义数据集,从多元高斯分布中获得x和y数组:mean
2021年9月11日
其他

深入探讨:为什么要做特征归一化/标准化?

scaling方式,前3种为逐行操作,最后1种为逐列操作。容易让人困惑的一点是指代混淆,Standardization指代比较清晰,但是单说Normalization有时会指代min-max
2021年9月10日
其他

机器学习、深度学习面试知识点汇总

作者丨Oldpan来源丨oldpan博客,编辑丨极市平台前言最近这段时间正临秋招,这篇文章是老潘在那会找工作过程中整理的一些重要知识点,内容比较杂碎,部分采集于网络,简单整理下发出来,适合面试前突击,当然也适合巩固基础知识。另外推荐大家一本叫做《百面机器学习》的新书,2018年8月份出版的,其中包括了很多机器学习、深度学习面试过程中会遇到的问题,比较适合需要准备面试的机器学习、深度学习方面的算法工程师,当然也同样适合巩固基础~有时间一定要需要看的书籍:程序员的数学系列,适合重温知识,回顾一些基础的线性代数、概率论。深度学习花书,总结类书,有基础知识的讲解,比较全面。统计学习方法,总结类书,篇幅不长,都是核心。Pattern
2021年9月8日
其他

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

Markov(马尔科夫链正是以他的名字命名)试图证明非独立的事件可能也遵循特定的模式。他的其中一个最著名的例子是从一份俄罗斯诗歌作品中数出几千个两字符对(two-character
2021年9月3日
其他

统计学中数据分析方法汇总!

来源:数据派THU,编辑:数据SeminarPart1描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。集中趋势分析:集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?离中趋势分析:离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。相关分析:相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系;既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度——即相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——即因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。例如,我们想知道对监狱情景进行什么改造,可以降低囚徒的暴力倾向。我们就需要将不同的囚舍颜色基调、囚舍绿化程度、囚室人口密度、放风时间、探视时间进行排列组合,然后让每个囚室一种实验处理,然后用因素分析法找出与囚徒暴力倾向的相关系数最高的因素。假定这一因素为囚室人口密度,我们又要将被试随机分入不同人口密度的十几个囚室中生活,继而得到人口密度和暴力倾向两组变量(即我们讨论过的A、B两列变量)。然后,我们将人口密度排入X轴,将暴力倾向分排入Y轴,获得了一个很有价值的图表,当某典狱长想知道,某囚舍扩建到N人/间囚室,暴力倾向能降低多少。我们可以当前人口密度和改建后人口密度带入相应的回归方程,算出扩建前的预期暴力倾向和扩建后的预期暴力倾向,两数据之差即典狱长想知道的结果。Part2推论统计推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据,来证明或推翻某个命题。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。例如,我们想研究教育背景是否会影响人的智力测验成绩。可以找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验成绩。用推论统计方法进行数据处理,最后会得出类似这样儿的结论:“研究发现,大学毕业生组的成绩显著高于初中毕业生组的成绩,二者在0.01水平上具有显著性差异,说明大学毕业生的一些智力测验成绩优于中学毕业生组。”其中,如果用EXCEL
2021年9月2日
其他

一文全览机器学习建模流程(Python代码)

注:本文基于之前的文章做了些修改,重复部分可以跳过看。示例的项目为基于LR模型对癌细胞分类的任务。随着人工智能时代的到来,机器学习已成为解决问题的关键工具,如识别交易是否欺诈、预测降雨量、新闻分类、产品营销推荐。我们接下来会详细介绍机器学习如何应用到实际问题,并概括机器学习应用的一般流程。1.1
2021年8月26日
其他

一图胜千言!数据可视化多维讲解

标记),差(用圆标记):用色调表示红酒的类型,由深度和数据点大小确定的酸度表征总二氧化硫含量。这个解释起来可能有点费劲,但是在试图理解多维数据的隐藏信息时,最好结合一些绘图组件将其可视化。结合形状和
2021年8月24日
其他

图解SQL基础知识,小白也能看懂的SQL文章!

Join)等价于左外连接加上右外连接,同时返回左表和右表中所有的数据;对于两个表中不满足连接条件的数据返回空值。全外连接的原理如下图所示:交叉连接也称为笛卡尔积(Cartesian
2021年8月22日
其他

预测模型,怎么做才够精准?

“预测得不准!”是数据分析领域的终极难题了。讲预测的算法有一大堆,然后遇到现实基本上都被锤成渣渣,业务方怎么都不满意。到底该怎么破局?今天系统讲一下。01预测算法的本质从本质上看,预测算法只有2大类:1、基于时间序列的。l
2021年8月21日
其他

推荐这三个超参优化库(附python代码)

yi),作为初始训练集完成代理函数M的评估;根据采集函数S和代理函数M,得到当前情况下可能获得最优得分的超参组合xi+1将新一组超参数带入待优化的机器学习,得到真实的yi+1将最新数据(xi+1,
2021年8月19日
其他

pandas 查询筛选数据的 8 个骚操作

|等。比如下面这个例子除了上面条件外再加上且条件CHAS为1,注意逻辑符号分开的条件要用()隔开。df[(df['NOX']>df['NOX'].mean())&
2021年8月17日
其他

20 个短小精悍的 pandas 骚操作

使用squeezesubset.squeeze("columns")可以看到,压缩完结果已经是int64的格式了,而不再是series。这部分可以参考我之前写的骚操作系列:Squeeze
2021年8月11日
其他

异常检测算法速览(Python代码)

Detection)。现实情况的异常检测问题,由于收集异常标签样本的难度大,往往是没有标签的,所以无监督异常检测应用最为广泛。无监督异常检测按其算法思想大致可分为如下下几类:2.1
2021年8月10日
其他

数据分析:浅谈漏斗分析

完成下单。进一步进行思考,我们可以把每一步赋予业务上的涵义,即:广告投放展示(引起用户兴趣)
2021年8月8日
其他

Numpy闯关100题,我闯了95关。

转自:数据不追牛链接:https://mp.weixin.qq.com/s/iyRjPLwxM2NVrgXKOacLTQ对于Numpy,我讲的不多,因为和Pandas相比,他距离日常的数据处理更“远”一些。但是,Numpy仍然是Python做数据分析所必须要掌握的基础库之一,以下题是github上的开源项目,主要为了检测你的Numpy能力,同时对你的学习作为一个补充。来源:https://github.com/rougier/numpy-1001.
2021年8月7日
其他

Toad:基于 Python 的标准化评分卡模型

在信贷的风控模型中最常用、最经典的可能要属评分卡了,所谓评分卡就是给信贷客户进行打分,按照不同业务场景可为贷前、贷中、贷后和反欺诈,一般叫做ABCF卡。模型得到分数,通过设置cutoff阈值给出评估结果,结果可直接用于通过或拒绝,或者用于策略应用。区别于xgb等机器学习模型,评分卡使用逻辑回归,之所是还在使用时因为它属于广义线性回归,在特征的解释性上非常的强。本次和大家分享一个开源的评分卡神器toad。从数据探索、特征分箱、特征筛选、特征WOE变换、建模、模型评估、转换分数,都做了完美的包装,可以说是一条龙的服务啊,极大的简化了建模人员的门槛。并且东哥也仔细看过源码,基本都是通过numpy来实现的,并且部分过程还使用了多线程提速,所以在速度上也是有一定保障的。链接:https://github.com/amphibian-dev/toad下面就介绍如何使用toad建立评分卡的整个流程。安装就不说了,标准的方法,自行pip安装。一、读取数据、划分样本集首先通过read_csv读取数据,看看数据概况。data
2021年8月4日
其他

业务分析模型,该怎么搭建

很多同学最怕听“建模型”仨字。尤其是建立“业务分析模型”。往往自己辛辛苦苦搞的LR、SVM、CNN被业务方狂喷:你这都是啥东西!脱离业务!不切实际!所以到底什么是“业务分析模型”,又该怎么建?我们今天系统讲解一下。01业务分析模型是什么首先,一个正儿八经的分析模型得包含三个条件:1、有合理的逻辑2、有明确的目标3、有数据的支持
2021年7月27日
其他

数据建模理论、设计和实践

Vault模型不能直接面向业务进行数据分析决策,需要关联处理之后才能进行相应数据指标的统计,它的扩展性更好,但同时性能和便捷度更差。Anchor模型是对DATA
2021年7月22日
其他

pandas 的 9 种数据查询方式

导读Pandas之于日常数据分析工作的重要地位不言而喻,而灵活的数据访问则是其中的一个重要环节。本文旨在讲清Pandas中的9种数据访问方式,包括范围读取和条件查询等。Pandas中的核心数据结构是DataFrame,所以在讲解数据访问前有必要充分认清和深刻理解DataFrame这种数据结构。以下面经典的titanic数据集为例,可以从两个方面特性来认识DataFrame:1、DataFrame是一个行列均由多个Series组成的二维数据表框,其中Series可看做是一个一维向量。理解这一点很重要,因为如果把DataFrame看做是一个集合类型的话,那么这个集合的元素泛型即为Series;2、DataFrame可看做是一个二维嵌套的dict,其中第一层dict的key是各个列名;而每个dict内部则是一个以各行索引为key的子dict。当然,这里只是将其"看做"而非等价,是因为其与一个严格的dict还是有很大区别的,一个很重要的形式上区别在于:DataFrame的列名是可以重复的,而dict的key则是不可重复的。认识了这两点,那么就很容易理解DataFrame中数据访问的若干方法,比如:1.
2021年7月21日
其他

斯坦福大学计算机系,完整课程列表!

前面和大家推荐了微软最新开源的机器学习教程:微软太良心,这次对机器学习下手了!这次再和大家推荐个良心学习资源:斯坦福公开课。这所名校想必也不用我过多介绍了,CS专业相当的强悍,之所以能够成为公开课,是因为无论从师资,教学方法,还是课程质量都已经足够优秀了,公开出来可以帮助更多没有学习机会的人。因此,如果你没有机会去名校学习,也在从事相关工作,不如看看它的公开课。下面这份列表是知乎@成为文艺复兴人从
2021年7月18日
其他

终于有人总结了图神经网络!

图5)。图5我们来看一下这个式子,天呐,这不就是聚合邻居节点的特征然后做一个线性变换吗?没错,确实是这样,同时为了使得GCN能够捕捉到K-hop的邻居节点的信息,作者还堆叠多层GCN
2021年7月12日
其他

微软太良心,这次对机器学习下手了!

不得不说,微软的开源太给力了。从我的角度来看,VScode让我非常之爱,用着不要太香。还有很多开源的神器,包括自动化、可视化、机器学习、深度学习。。等等,不断输出。当然以上都是工具类的,关于课程类的也有很多,比如之前微软对Python就开源过学习课程,链接如下:https://docs.microsoft.com/zh-cn/windows/python/而这次微软的矛头终于指向了机器学习,最近又开源了一个非常棒的课程:面向初学者的机器学习课程(ML-For-Beginners)。
2021年7月11日
其他

关于中心极限定理,最通俗易懂的讲解在这里了

作者:朱曦炽编辑:zenRRan一、导读中心极限定理是统计学中比较重要的一个定理。本文将通过实际模拟数据的形式,形象地展示中心极限定理是什么,是如何发挥作用的。二、什么是中心极限定理(Central
2021年7月5日
其他

基于 Python 的 8 种常用抽样方法

今天来和大家聊聊抽样的几种常用方法,以及在Python中是如何实现的。抽样是统计学、机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到。所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本。上面所说的都是以概率为基础的,实际上还有一类非概率的抽样方法,因此总体上归纳为两大种类:概率抽样:根据概率理论选择样本,每个样本有相同的概率被选中。非概率抽样:根据非随机的标准选择样本,并不是每个样本都有机会被选中。概率抽样技术1.随机抽样(Random
2021年7月1日
其他

10 部顶级数学纪录片

看到“统计学”,你首先想到什么?是让人眼花缭乱的表格,还是各种晦涩难懂的术语?其实,统计学并不遥远,从日常生活到科学研究,到处都有它的踪影,统计学也并不枯燥。在BBC的这部纪录片中,明星教授Hans
2021年6月24日
其他

从贝叶斯定理到概率分布:详解概率论基本定义

转自:机器之心本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。简介在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识,所以我们开始吧。第一部分将会介绍概率论基础知识。概率我们已经拥有十分强大的数学工具了,为什么我们还需要学习概率论?我们用微积分来处理变化无限小的函数,并计算它们的变化。我们使用代数来解方程,我们还有其他几十个数学领域来帮助我们解决几乎任何一种可以想到的难题。难点在于我们都生活在一个混乱的世界中,多数情况下无法准确地测量事物。当我们研究真实世界的过程时,我们想了解许多影响实验结果的随机事件。不确定性无处不在,我们必须驯服它以满足我们的需要。只有如此,概率论和统计学才会发挥作用。如今,这些学科处于人工智能,粒子物理学,社会科学,生物信息学以及日常生活中的中心。如果我们要谈论统计学,最好先确定什么是概率。其实,这个问题没有绝对的答案。我们接下来将阐述概率论的各种观点。频率想象一下,我们有一枚硬币,想验证投掷后正反面朝上频率是否相同。我们如何解决这一问题?我们试着进行一些实验,如果硬币正面向上记录
2021年6月22日
其他

​特征工程:时序特征挖掘的奇技淫巧

等也需要考虑一下;一天的某个时间段;上午、中午、下午、傍晚、晚上、深夜、凌晨等;年初、年末、月初、月末、周内、周末;基本特征;高峰时段、是否上班、是否营业、是否双休日;主要根据业务场景进行挖掘。#
2021年6月17日
其他

逻辑回归模型的算法原理、推导

逻辑回归是一个非常经典,也是很常用的模型。之前和大家分享过它的重要性:5个原因告诉你:为什么在成为数据科学家之前,“逻辑回归”是第一个需要学习的关于逻辑回归,可以用一句话来总结:逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。本篇我们就开始逻辑回归的介绍。▍sigmoid函数首先我们了解一个函数:sigmoid,逻辑回归就是基于这个函数构建的模型。sigmod函数公式如下:使用Python的numpy,matplotlib对该函数进行可视化,如下:图中我们可以直观地看到这个函数的一些特点:中间范围内函数斜率最大,对应Y的大部分数值变化Y轴数值范围在
2021年6月14日