Python数据科学

其他

pandas数据分析学习路线

大家好,我是东哥。《再见pandas》系列已有300多位朋友加入学习了,这段时间亲眼见证了很多朋友的飞跃进步,从无到有,从一个问问题的小白到开始慢慢回答别人的问题,在讨论和练习中不断成长。虽说pandas已经很普及了,但普及内容的深度却远远不够。下面这套原创图文是东哥亲自打造,包涵入门、进阶、实战、刷题四个核心部分,以及一些数分的辅助部分。从图文启动开始一直保持着很高的更新频率,最新的更新版本如下。01如何使用?《pandas快速入门》适合初学者入门,花最短的时间了解pandas,建立初步的认识和感觉。如果已经有了一定基础,可以选择忽略。《pandas进阶宝典》适合初学者进阶,10万字+300章节+80%图解的图文,分为基础篇、进阶篇、实战篇。超详细的分类介绍和高级玩法,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析当然,作为工作中的查询手册也是不要太爽,我自己一直在用,效率非常高。以下是部分内容展示。>《pandas进阶题库》适合进阶后巩固,掌握各种场景下的技巧和方法。大部分问题由pandas交流群成员提出的,均是真实需求,在实际需求中解决问题,从而快速熟练掌pandas和数据分析思维。以下是部分内容展示。练习题库持续更新中。《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
2023年12月15日
其他

再见,pandas!

大家好,我是东哥。《再见pandas》系列已有300多位朋友加入学习了,这段时间亲眼见证了很多朋友的飞跃进步,从无到有,从一个问问题的小白到开始慢慢回答别人的问题,在讨论和练习中不断成长。虽说pandas已经很普及了,但普及内容的深度却远远不够。下面这套原创图文是东哥亲自打造,包涵入门、进阶、实战、刷题四个核心部分,以及一些数分的辅助部分。从图文启动开始一直保持着很高的更新频率,最新的更新版本如下。01如何使用?《pandas快速入门》适合初学者入门,花最短的时间了解pandas,建立初步的认识和感觉。如果已经有了一定基础,可以选择忽略。《pandas进阶宝典》适合初学者进阶,10万字+300章节+80%图解的图文,分为基础篇、进阶篇、实战篇。超详细的分类介绍和高级玩法,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析当然,作为工作中的查询手册也是不要太爽,我自己一直在用,效率非常高。以下是部分内容展示。>《pandas进阶题库》适合进阶后巩固,掌握各种场景下的技巧和方法。大部分问题由pandas交流群成员提出的,均是真实需求,在实际需求中解决问题,从而快速熟练掌pandas和数据分析思维。以下是部分内容展示。练习题库持续更新中。《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
2023年11月18日
其他

pandas实战:出租车GPS数据分析

上次分享了电商行业的项目实战:pandas实战:电商平台用户分析。本次分享一个交通行业实战项目,这个项目是对出租车GPS数据进行分析,具体内容包括了数据理解、业务场景、数据处理、可视化等。以下是部分内容展示,完整数据、和代码可戳👉《pandas进阶宝典V1.1.6》进行了解。一、数据处理数据表的变量含义如下。id:车辆编号,唯一标识time:GPS采集时间long:GPS经度lati:GPS纬度status:载客状态,1为载客,0为空客speed:采集的GPS车速首先读取数据,由于原数据没有header,直接就是数据,因此需设置为None,然后手动添加列索引名称。#
2023年8月11日
其他

再见 for 循环!pandas 速度提升315倍!

[i]['date_time']执行所谓的链式索引,这通常会导致意外的结果。这种方法的最大问题是计算的时间成本。对于8760行数据,此循环花费了3秒钟。接下来,一起看下优化的提速方案。一、使用
2023年8月9日
其他

速度起飞!替代 pandas 的 8 个神库

DataFrame,它采用内存映射、高效的核外算法和延迟计算等技术。对于大数据集而言,只要磁盘空间可以装下数据集,使用Vaex就可以对其进行分析,解决内存不足的问题。它的各种功能函数也都封装为类
2023年7月29日
其他

统计学派 18 种经典数据分析方法!

:使用条件:当样本含量n较大时,样本值符合正态分布T检验:使用条件:当样本含量n较小时,样本值符合正态分布单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0
2023年7月23日
其他

pandas实战:电商平台用户分析

分享一个《pandas进阶宝典》最新更新的实战项目,电商平台用户行为分析。以下是内容节选。数据分析1.行为概况首先,我们要对用户的行为类型有一定的理解,了解每个行为所代表的含义。浏览:作为用户与商品接触的第一个行为,它的数量级与其他行为类型相比而言是非常庞大的,因为:用户购买之前需要货比三家,可能会浏览很多个商品最后只下单一个,此时就是多个浏览对应一个下单。但大部分用户可能只是浏览了很多商品,但最终没下单的,此时就是多个浏览对应零个下单。收藏:代表用户对商品有了一定程度的意向,但不一定有购买计划。加购物车:代表用户对商品的购买意向进一步加强,但由于某种原因还在犹豫没最终决定,这个环节的成单率极高。下单:代表交易达成,此时新用户已成为老用户,老用户继续产生价值。评论:代表用户对商品反馈的活跃程度。需求1:对所有行为类型统计数量和占比#
2023年7月9日
其他

《pandas进阶宝典》更新了

大家好,我是东哥。《pandas进阶宝典》进行了两周,开启了付费模式我原以为效果不会很好,但目前加入人数也快突破100人了。据目前反馈来看,内容方面是得到了大家肯定的,毕竟是用了心做的,这一点我很有信心。并且这两周除了维护更新原有的pandas基础和进阶篇之外,还加入了几个数据分析实战项目。对于项目筛选我是比较严格的,尽可能用到不同的业务场景,穿透业务思考,并且尽可能用到各种pandas技巧去实现,因此可以说每个项目都很精炼,并不是水的。目前已完成3个,计划是增加至8个,再接下来会增加常见高频问题索引,可以让大家遇到问题快速找到答案而不用东找西找,这是目前的一些想法,后续一旦有好的想法和内容就更新进来。最后分享一个最近刚更新的交通出行分析项目,以下是部分节选。整个项目是由一个个的小分析需求组成,先引导自己思考,然后给出详细的分析思路和解决方案,以及pandas代码实现。数据清洗、数据分析方面更是接近了实际工作中的难度,可以说是非常好的练手和进阶工具。如以上所说,内容还在持续打磨和更新中。想要了解和加入的朋友可以戳下面链接(有额外福利哦)👇《pandas进阶宝典》终于面世了!最后祝各位周末愉快。
2023年6月30日
其他

《pandas进阶宝典》终于面世了!

回想一下,使用pandas已有5年时间了。从0基础接触Python开始,到自学数据分析和机器学习,参加竞赛,最后到成功转行找到理想岗位,这一路上可谓一直在用pandas过五关斩六将,可以算是我5年的老战友了。甚至直到现在的工作岗位上,我还是在用pandas做一些日常的数据分析和处理,不得不说真的爱啊,这也导致我对pandas有种独特的情怀。关注这个号的老朋友可能都知道,之前一直有在分享关于pandas的各种教程,尤其是pandas骚操作系列,也得到了一些认可。当时很多朋友呼吁整理成小册子方便查看和学习,但由于犯懒一直没有进行系统整理,每次的计划都因为各种原因最终泡汤,想起来也是惭愧。最近再次重新起航,但好在这次没有被打脸。耗时一个半月加连熬几个通宵,终于肝出了一直想做的《pandas进阶宝典》小册子。做出来以后我自己先试用了一个月,感觉不错,也拿出来分享一下。一、有什么特色?《pandas进阶宝典》目前总共有三大部分:基础篇、进阶篇、实战篇,全文共约400页,包括35个大章节和近200多个小节。其中很多内容都是通过平时的大量试错总结出来的,是时间的沉淀,经验的累积。每个部分都包含了详细的方法介绍和案例展示,以及80%以上原创的绘图帮助理解。考虑到pandas毕竟已经推出很长时间了,只是停留在一些基础教程上,也没什么意思,所以这个小册子除了基础教程以外,还增加了很多进阶玩法和技巧,以及实战案例(已有三个实战项目,味道接近企业级需求),可以说骚操作是直接拉满的。话不多说,以下是内容的介绍,大家可以感受下。01
2023年6月26日
科技

时序预测的深度学习算法介绍

来源:轮回路上打碟的小年轻(侵删)1.概述深度学习方法是一种利用神经网络模型进行高级模式识别和自动特征提取的机器学习方法,近年来在时序预测领域取得了很好的成果。常用的深度学习模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)、卷积神经网络(CNN)、注意力机制(Attention)和混合模型(Mix
2023年6月20日
其他

《pandas进阶宝典》终于面世了!

回想一下,使用pandas已有5年时间了。从0基础接触Python开始,到自学数据分析和机器学习,参加竞赛,最后到成功转行找到理想岗位,这一路上可谓一直在用pandas过五关斩六将,可以算是我5年的老战友了。甚至直到现在的工作岗位上,我还是在用pandas做一些日常的数据分析和处理,不得不说真的爱啊,这也导致我对pandas有种独特的情怀。关注这个号的老朋友可能都知道,之前一直有在分享关于pandas的各种教程,尤其是pandas骚操作系列,也得到了一些认可。当时很多朋友呼吁整理成小册子方便查看和学习,但由于犯懒一直没有进行系统整理,每次的计划都因为各种原因最终泡汤,想起来也是惭愧。最近再次重新起航,但好在这次没有被打脸。耗时一个半月加连熬几个通宵,终于肝出了一直想做的《pandas进阶宝典》小册子。做出来以后我自己先试用了一个月,感觉不错,也拿出来分享一下。一、有什么特色?《pandas进阶宝典》目前总共有三大部分:基础篇、进阶篇、实战篇,全文共约400页,包括35个大章节和近200多个小节。其中很多内容都是通过平时的大量试错总结出来的,是时间的沉淀,经验的累积。每个部分都包含了详细的方法介绍和案例展示,以及80%以上原创的绘图帮助理解。考虑到pandas毕竟已经推出很长时间了,只是停留在一些基础教程上,也没什么意思,所以这个小册子除了基础教程以外,还增加了很多进阶玩法和技巧,以及实战案例,可以说骚操作是直接拉满的。话不多说,以下是内容的介绍,大家可以感受下。01
2023年6月19日
其他

《pandas进阶宝典》终于面世了!

大家好,我是东哥。在近几年我越发地看到使用pandas的朋友越来越多了,尤其是刚接触python和数据分析的同学,在似懂非懂的阶段苦于没有一个好的指导。我之前在公众号写过不少关于pandas的文章,现在总阅读差不多超20万了。这些文章很零散我一直没有时间做一次系统的梳理,这次下决心我决定启动,现在终于打磨差不多了。总共耗费一个月的闲暇时间加几晚通宵,最终肝出了一本小册子《pandas进阶宝典》共约400页。全文共包括三大部分基础篇、进阶篇、实战篇,30个章节和150多小节,每一部分都包含了详细的方法介绍和案例展示,各种骚操作和进阶玩法全在里面了,还配有大量我原创的绘图帮助大家理解。话不多说,直接展示具体内容,用实力说话。内容展示01
2023年6月8日
其他

中国各城市首轮感染高峰期预测!(更新版)

时日增感染者就达到了顶峰。而“结束进度条”说明的是在疫情过峰后,在这一波疫情结束前已经感染了多少人,这段时间的疫情虽然整体缓解,但感染还是会继续增加,并且大部分死亡会出现在这个阶段。在数字达到
2022年12月23日
其他

小白看得懂的 Transformer (图解)

出处:https://blog.csdn.net/longxinchen_ml/article/details/86533005审校:百度NLP、龙心尘翻译:张驰、毅航、Conrad原作者:Jay
2022年5月11日
其他

时间序列吊打新手的秘密!

三个时间戳,极值前某个区间/极值前后某个区间/极值后某个区间times_gap
2022年1月14日
其他

推荐 3 个 Python 时序分析神器!

时间序列分析是一类经典问题,常见的场景需求包括时序预测、时序分裂、时序聚类、异常检测等。作为一名算法工程师,当调包遇上时间序列,有哪些好用的工具包呢?本篇首先介绍3个:tsfresh、tslearn、sktime。本文主要对三个时序工具包进行简要介绍,包括工具包的功能定位、主要特色及优劣势等,并列出了相关的论文、文档和github地址可供详细查阅。一、tsfreshtsfresh工具包,是一个定位于时间序列特征工程相关的工具包,包括对时间序列自动提取特征、特征选择、特征转换等,最早于2018年由德国的几名学者提出和开发。也正因为是定位于特征工程,所以tsfresh本身是不能用于实现时序预测或者时序分类等任务的,但可以基于其特征提取的结果完成后续的操作,例如进行多时序聚类时首先应用tsfresh完成对不同时序数据的特征是一个很好的选择。tsfresh接收的时序数据类型为pandas的dataframe格式,时序数据的组织形式既可以长表也可以是宽表。在其提取的特征中,主要是关于时序数据的各项统计指标,例如最大最小值、均值、中位数、峰值个数等等,另外也可以自定义一些参数来提取更为定制化的特征,直接调用extract_features函数大概会得到几百个维度的特征提取结果,其中根据具体的时序数据取值可能会有较多的空值。从某种意义上讲,tsfresh提取的特征是关于时序数据的元特征,所以对于时序分类或聚类可能会更加有用,但用于时序预测则意义不大。关于tsfresh的相关参考信息如下:论文:https://doi.org/10.1016/j.neucom.2018.03.067文档:https://tsfresh.readthedocs.io/en/latest/index.htmlGitHub:https://github.com/blue-yonder/tsfresh(6.1k
2021年12月31日
其他

时间序列:平稳时序分析入门指南

AIC越小,模型越优秀。但AIC有不足,就是AIC的拟合误差会受样本容量放大而被影响,样本容量越大,往往AIC选择的模型会含有更多的参数。为此,BIC加入对未知参数个数的惩罚权重:
2021年12月27日
其他

让 Python 起飞的 24 个骚操作!

大家好,我是东哥。Python加速的技巧有很多,这篇文章总结了24个,查缺补漏,每天学会一个新的小技巧一、分析代码运行时间第1式:测算代码运行时间平凡方法快捷方法(jupyter环境)第2式:测算代码多次运行平均时间平凡方法快捷方法(jupyter环境)第3式:按调用函数分析代码运行时间平凡方法快捷方法(jupyter环境)第4式:按行分析代码运行时间平凡方法快捷方法(jupyter环境)二、加速你的查找第5式:用set而非list进行查找低速方法高速方法第6式:用dict而非两个list进行匹配查找低速方法高速方法三、加速你的循环第7式:优先使用for循环而不是while循环低速方法高速方法第8式:在循环体中避免重复计算低速方法高速方法四、加速你的函数第9式:用循环机制代替递归函数低速方法高速方法第10式:用缓存机制加速递归函数低速方法高速方法第11式:用numba加速Python函数低速方法高速方法五、使用标准库函数进行加速第12式:使用collections.Counter加速计数低速方法高速方法第13式:使用collections.ChainMap加速字典合并低速方法高速方法六,使用numpy向量化进行加速第14式:使用np.array代替list低速方法高速方法第15式:使用np.ufunc代替math.func低速方法高速方法第16式:使用np.where代替if低速方法高速方法七、加速你的Pandas第17式:使用np.ufunc函数代替applymap低速方法高速方法第18式:使用预分配存储代替动态扩容低速方法高速方法第19式:使用csv文件读写代替excel文件读写低速方法高速方法第20式:使用pandas多进程工具pandarallel低速方法高速方法八、使用Dask进行加速第21式:使用dask加速dataframe低速方法高速方法第22式:使用dask.delayed进行加速低速方法高速方法九、应用多线程多进程加速第23式:应用多线程加速IO密集型任务低速方法高速方法第24式:应用多进程加速CPU密集型任务低速方法高速方法推荐阅读1.
2021年12月26日
其他

炒股必看的时序预测基本方法--移动平均(SMA、EMA、WMA)

移动平均作为时间序列中最基本的预测方法,计算虽简单但却很实用。不仅可以用于预测,还有一些其他的重要作用,比如平滑序列波动,揭示时间序列的趋势特征。时间序列预测移动平均就是用当前时刻前期的观测值预测下一期的取值。给定一个时间序列,观测值序列为。可预测为前项的平均值,即:其中,为滑动窗口大小表示需要往前推多少期。根据计算平均数的方法划分,移动平均可分为简单移动平均、指数移动平均、加权移动平均等。移动平均是根据前若干个观测值,预测下期的取值。那下下期、下下下期该如何预测呢?可以考虑使用二次移动平均,也叫二项移动,即在一次移动平均的基础上再移动平均。注意:移动平均用于预测场景时,尤其是多步预测,有个前提假设条件,序列相对平稳,没有趋势、季节性的情况。描述趋势特征移动平均能够去除时间序列的短期波动,使得数据变得平滑,从而可以方便看出序列的趋势特征。尤其在金融领域,移动平均线作为一种计算简单、易于解释的趋势性指标,可以从中看出市场的趋势和倾向。下图显示了五粮液股票价格数据以及30日简单移动平均值。移动平均线平滑了股价的波动,从而显示了长期的波动趋势。从上图可以看出,原序列波动较大,经移动平均后,随机波动明显减少;窗口大小越大,平滑后波动越小,滞后越明显。移动平均有两种方法:中心移动平均,尾部移动平均。中心移动平均,计算t时刻的移动平均值时同时使用t时刻之前的观测值及t时刻之后的观测值,牵扯到时间穿越问题,无法做预测,通常用来可视化;尾部移动平均,计算t时刻的移动平均值时仅使用t时刻之前的观测值,通常用来预测,也是本文学习的目标。简单移动平均简单移动平均(Simple
2021年10月27日
其他

再见 CSV,速度提升 150 倍!

大家好,我是东哥。前几天有个粉丝留言,说pandas的100个骚操作系列为什么只有21个啊?这里和大家说一下,这个系列「pandas100个骚操作」还在持续更新中。由于平时工作较忙,更新稍慢,不过还是在一直更新的。我的原计划是输出100个,目前来看可能最终不一定会到100个,但每个都是超实用且平时经常会遇到的问题。pandas的用法太多了,如果不熟练,平时是需要经常网上查找的,这个系列可以帮助大家快速回忆用法。或者万一平时遇到问题查不到无法解决,也可以过来看下,毕竟某度上是查不到微信文章的。该系列预计25-30篇文章的时候,东哥会总结成第一版的PDF电子版,方便大家使用。剩下来的继续更新迭代版本。为什么要和CSV再见?好了说了那么久,来介绍下为什么要和CSV再见。其实也谈不上彻底再见吧,日常还是要用的,这里再介绍一个更加高效的数据格式。用Python处理数据时保存和加载文件属于日常操作了,尤其面对大数据量时我们一般都会保存成CSV格式,而不是Excel。一是因为Excel有最大行数1048576的限制,二是文件占用空间更大,保存和加载速度很慢。虽然用CSV没有行数限制,相对轻便,但是面对大数据量时还是略显拉夸,百万数据量储存加载时也要等好久。。不过很多同学都借此机会抻抻懒腰、摸摸鱼,充分利用时间也不错。其实,CSV
2021年9月7日
其他

JupyterLab 3.0,极其强大的下一代Notebook!

界面。关于添加新语言包请参考:https://jupyterlab.readthedocs.io/en/stable/user/language.html简单交互界面模式的改进JupyterLab
2021年8月11日
其他

微软太良心,这次对机器学习下手了!

大家好,我是东哥。不得不说,微软的开源太给力了。从我的角度来看,VScode让我非常之爱,用着不要太香。还有很多开源的神器,包括自动化、可视化、机器学习、深度学习。。等等,不断输出。当然以上都是工具类的,关于课程类的也有很多,比如之前微软对Python就开源过学习课程,链接如下:https://docs.microsoft.com/zh-cn/windows/python/而这次微软的矛头终于指向了机器学习,最近又开源了一个非常棒的课程:面向初学者的机器学习课程(ML-For-Beginners)。
2021年7月7日
其他

整理了 34 个 Python 自动化办公库

今天继续给大家分享2周时间整理的Python自动化办公库。本次内容涵盖了Excel、Word、PPT、ODF、PDF、邮件、微信、文件处理等所有能在办公场景实现自动化的库,希望能够对大家有所帮助。PythonExcel自动化库//
2021年7月6日
其他

基于 Python 的 8 种常用抽样方法

sampling)简单采样,其实就是研究人员只选择最容易参与和最有机会参与研究的个体。比如下面的图中,蓝点是研究人员,橙色点则是蓝色点附近最容易接近的人群。2.自愿抽样(Voluntary
2021年6月26日
其他

50 种常用的 matplotlib 可视化图

种可视化图之前,我们需要配置一下依赖项以及通用设定,当然后面有一些独立的美图会修改通用设定。如果读者看中了某种可视化图,那么用这些配置再加上对应的可视化代码就能嵌入到我们自己的项目中。如下所示
2021年6月23日
其他

好习惯!pandas 8 个常用的 option 设置

显示更多列行可以设置,同样的列也可以设置,display.max_columns控制着可显示的列数,默认值为20。pd.get_option('display.max_columns')
2021年6月20日
其他

机器学习领域必知必会的12种概率分布(附Python代码实现)

高斯分布(连续型)高斯分布或正态分布是最为重要的分布之一,它广泛应用于整个机器学习的模型中。例如,我们的权重用高斯分布初始化、我们的隐藏向量用高斯分布进行归一化等等。当正态分布的均值为
2021年6月19日
其他

深度学习最常用的10个激活函数!

激活函数的主要缺点是:在零点不可微;负输入的梯度为零,这意味着对于该区域的激活,权重不会在反向传播期间更新,因此会产生永不激活的死亡神经元。8.
2021年6月15日
其他

知乎热议!一个博士生接受怎样的训练是完整的科研训练?

不会考虑太多为什么要做这个,这个做了能不能说明问题。其实老板很多时候也不知道要做啥。所以,
2021年6月14日
其他

爱了!发现一个宝藏动态可视化工具,不会编程也可玩起来

document.getElementById('js_content').addEventListener("selectstart",function(e){
2021年3月30日
其他

重磅!李宏毅 2021《机器学习》中文课程上线了

大家好,我是东哥。熟悉机器学习、深度学习的读者朋友一定不会陌生李宏毅、吴恩达、林轩田大佬。非常多人都是通过这些大佬的公开课入门机器学习的,吴恩达的CS229、CS230,林轩田的机器学习基石、技法等视频教程。如果这些学习材料你还没有的话也别急,可以见文末获取方式。今天要说的是,就在前几天不久,台大李宏毅老师开设了2021年薪一门的机器学习课程,而且是中文版!去年2020就公开了一版:李宏毅-《深度学习人类语言处理》国语版(2020)视频课程及ppt分享
2021年3月6日
其他

经典书最新版《贝叶斯数据分析(第三版)》,677页pdf,哥伦比亚大学《Bayesian Data Analysis, 3ed》

转自:专知http://www.stat.columbia.edu/~gelman/book/贝叶斯数据分析第三版,这本经典的书被广泛认为是关于贝叶斯方法的主要著作,用实用的方法来分析数据和解决研究问题。贝叶斯数据分析,第三版继续采取一种实用的方法来分析使用最新的贝叶斯方法。作者——统计界权威——在介绍高级方法之前,先从数据分析的角度介绍基本概念。在整个文本中,大量的工作示例来自实际应用和研究,强调在实践中使用贝叶斯推理。第三版新增非参数建模的四个新章节覆盖信息不足的先验和边界回避的先验关于交叉验证和预测信息标准的最新讨论改进的收敛性监测和有效的样本容量计算迭代模拟介绍了哈密顿的蒙特卡罗、变分贝叶斯和期望传播新的和修改的软件代码这本书有三种不同的用法。对于本科生,它介绍了从第一原则开始的贝叶斯推理。针对研究生,本文提出了有效的方法,目前贝叶斯建模和计算的统计和相关领域。对于研究人员来说,它提供了应用统计学中的各种贝叶斯方法。其他的资料,包括例子中使用的数据集,所选练习的解决方案,以及软件说明,都可以在本书的网页上找到。677页PDF完整资料,请添加下面东哥微信获取,备注暗号:贝叶斯点击「阅读原文」有惊喜👇
2021年3月5日
其他

pandas100个骚操作:Squeeze 类型压缩小技巧!

关注上方“Python数据科学”,选择星标,关键时间,第一时间送达!来源:Python数据科学作者:东哥起飞大家好,我是东哥。本篇是pandas100个骚操作系列的第
2021年2月20日
其他

pandas100个骚操作:再见 for 循环!速度提升315倍!

[i]['date_time']执行所谓的链式索引,这通常会导致意外的结果。这种方法的最大问题是计算的时间成本。对于8760行数据,此循环花费了3秒钟。接下来,一起看下优化的提速方案。一、使用
2021年2月5日
其他

pandas100个骚操作:使用 Datetime 提速 50 倍运行速度!

关注上方“Python数据科学”,选择星标,关键时间,第一时间送达!来源:Python数据科学作者:东哥起飞大家好,我是东哥。本篇是pandas100个骚操作系列的第
2021年2月4日
其他

Python 操作 Excel 库 xlwings 常用操作详解!

None以上仅是针对一些常用操作给出代码示例与讲解,更多的操作可以阅读官方文档,大家也可以自己对比一下xlwings和其他库在部分操作上的异同。未来我们也会更新基于xlwings的办公自动化案例!
2021年2月2日
其他

pandas100个骚操作:explode 列转行的 2 个常用技巧!

关注上方“Python数据科学”,选择星标,关键时间,第一时间送达!来源:Python数据科学作者:东哥起飞大家好,我是东哥。本篇是pandas100个骚操作系列的第
2021年2月2日
其他

建议收藏,22个Python迷你项目(附源码)

set!")time.sleep(time_min)toaster.show_toast(f"{header}",f"{text}",duration=10,threaded=True)while
2021年2月1日
其他

中国版“微软”要来了?某国产操作系统称已可以替代Windows 7

document.getElementById('js_content').addEventListener("selectstart",function(e){
2021年1月31日
其他

用 Python 自动玩王者荣耀,简直太秀了!

document.getElementById('js_content').addEventListener("selectstart",function(e){
2021年1月30日
其他

VS Code 真的会一统江湖吗?

以Python为核心语言,专攻于「数据科学」领域,文章涵盖数据分析,数据挖掘,机器学习等干货内容,分享大量数据挖掘实战项目分析和讲解,以及海量的学习资源。
2021年1月30日
其他

pandas100个骚操作:transform 数据转换的 4 个常用技巧!

document.getElementById('js_content').addEventListener("selectstart",function(e){
2021年1月28日
其他

答应我,调试 Python 代码,不要再用 Print 了!

获取更多的信息除了知道和输出相关的代码之外,你可能还想知道代码执行的行和代码文件。在ic.configureOutput()中,设置includeecontext的参数值为True即可。from
2021年1月27日
其他

pandas100个骚操作:一行 pandas 代码搞定 Excel “条件格式”!

as_cmap=True)df.style.background_gradient(cmap=cm)如果结合Ipython的HTML还可以实现炫酷的动态效果。from
2021年1月26日
其他

太秀了!用 pandas 搞定 24 张 Excel 报表

正当我们准备把这一步结果同步给首席吹牛官,顺便探讨进一步的数据分析方向,比如结合支付人数的金额贡献、留存率、LTV,以及引入两年增速的维度,结合业务动作来定位深层原因。
2021年1月24日
其他

炸了!炸了!微信十周年炸裂更新(附安卓版)

document.getElementById('js_content').addEventListener("selectstart",function(e){
2021年1月22日
其他

pandas100个骚操作:再见,可视化!你好,pandas!

关注上方“Python数据科学”,选择星标,关键时间,第一时间送达!来源:Python数据科学作者:东哥起飞大家好,我是你们的东哥。本篇是pandas100个骚操作系列的第4篇:再见,可视化!你好,pandas!系列全部内容请看文章标题下方的「pandas100个骚操作」话题,订阅后可更新可第一时间推送文章。用Python做数据分析离不开pandas,pnadas更多的承载着处理和变换数据的角色,pands中也内置了可视化的操作,但效果很糙。因此,大家在用Python做数据分析时,正常的做法是用先pandas先进行数据处理,然后再用Matplotlib、Seaborn、Plotly、Bokeh等对dataframe或者series进行可视化操作。但是说实话,每个可视化包都有自己独特的方法和函数,经常忘,这是让我一直很头疼的地方。好消息来了!从最新的pandas版本0.25.3开始,不再需要上面的操作了,数据处理和可视化完全可以用pandas一个就全部搞定。pandas现在可以使用Plotly、Bokeh作为可视化的backend,直接实现交互性操作,无需再单独使用可视化包了。下面我们一起看看如何使用。1.
2021年1月21日
其他

东哥铁粉成功拿下5个offer25K面经分享

果不其然,第二天问到了我电话里说的问题,技术上表现也比较完美(见后面面经),成功收割了这枚offer,目前他已经顺利入职百信银行了。前几天,他又收到了中信银行的第5个offer,但婉绝了。
2021年1月20日
其他

pandas100个骚操作:变量类型自动转换

关注上方“Python数据科学”,选择星标,关键时间,第一时间送达!大家好,我是你们的东哥。本篇是pandas100个骚操作的第一篇:变量类型自动转换在用pandas进行数据清洗的过程中,变量的类型转换是一个必然会遇到的步骤。清洗初期查看dtypes经常出现object类型,但其实变量本身可能就是个字符串,或者是数字(但因存在空值,导致出现了object类型)。通常大家所熟知的方法是使用astype进行类型转换,或者自己利用astype造个轮子,写个函数方法实现自动转换类型。本次东哥介绍一个pandas里可实现自动转换变量类型的方法convert_dtypes。利用它可以一次性全部转换为最理想的类型。一、使用方法默认情况下,convert_dtypes将尝试将Series或DataFrame中的每个Series转换为支持的dtypes。它可以对Series和DataFrame都直接使用。这个方法的参数如下。#
2021年1月17日
其他

阿里彻底拆中台了!

document.getElementById('js_content').addEventListener("selectstart",function(e){
2021年1月17日