Python学习与数据挖掘

其他

50 种常用的 matplotlib 可视化图

种可视化图之前,我们需要配置一下依赖项以及通用设定,当然后面有一些独立的美图会修改通用设定。如果读者看中了某种可视化图,那么用这些配置再加上对应的可视化代码就能嵌入到我们自己的项目中。如下所示
2023年11月8日
其他

《大模型实战宝典》1.0 发布!

↓推荐关注↓加入城哥知识星球,解惑答疑,告别迷茫不知不觉,《宝典》系列已写了近200万字,很多人跟我反馈内容不错,如果你有兴趣,可以详细的看一下:《Python
2023年9月11日
其他

《机器学习算法实战宝典》1.0 发布!

大家好,我是城哥,历时半年的梳理和修改,我的《机器学习算法实战宝典》(以下简称《算法实战宝典》)终于可以跟大家见面了。个人简介城哥在一线互联网公司工作,从事数据分析、机器学习算法相关工作10年,多次担当校招和社招面试官,获得腾讯、携程、阿里等大厂offer。工作期间,多次参与公司级实战项目(数据分析挖掘、算法、AI平台搭建等)。目前城哥朋友圈有6000+人,自从走上分享技术这条路,最大收获就是认识了很多年轻的粉丝朋友,有些甚至是高中生,加我微信的朋友,咨询编程问题、技术资料、公司级实战项目.......如果你有任何就业、技术等方面的问题,都可以找我沟通交流,建议下班时间咨询,上班期间可能回复较慢。《算法实战宝典》简介有一点需要说明:这次写的与之前分享的《算法面试宝典》是不同的,《算法实战宝典》内容侧重公司级的实操、编程。从机器学习算法基础到公司级实战项目案例,应有尽有,基础薄弱的同学可以看我之前分享的内容。《算法实战宝典》部分目录如下:《算法实战宝典》优点市面上的实战项目有两种:1、网上公开实战项目:内容重复较多且质量不高,很多没有答案和数据,没办法复现,需要自己去整理,可能浪费大量时间和精力,内容不能构成体系。2、面试类书籍:图书出版流程的都应该知道,一本书从构思到出版,少则半年多则一年以上,还要考虑编辑不忙,手头工作不多,你的书稿不需要排队,书稿质量好,不需要反复修改。书籍能出版了,有些项目就过时了。《算法实战宝典》的优点:1、《算法实战宝典》会定期更新迭代,一次订阅、后续无需额外费用。2、《算法实战宝典》内容经过城哥精挑细选,项目包括:公司级项目和kaggle
2023年4月5日
其他

《机器学习算法面试宝典》1.0 发布!

大家好,历时半年的梳理和修改,《机器学习算法面试宝典》(以下简称《算法面试宝典》)终于可以跟大家见面了。了解这个领域的都知道,无论是校招还是社招,机器学习算法岗薪资普遍都很高,不夸张的讲,一个刚参加工作的应届生都可以轻松超过其他行业工作7、8年的老员工。据HR朋友介绍,百度"文心一言"大模型团队跳槽,薪资直接翻倍,从这个角度来说,薪资真的很给力,是真的很香。近年来,很多理科专业学生也纷纷转入算法赛道,特别是最近
2023年4月4日
其他

《Python 知识手册》1.0 版本发布!

实战项目,基本涵盖工作中必备的各方面知识,无论你是刚入门的小白还是已工作多年,相信读完后,你一定能有所收获。手册内容如下:部分章节展示2、文档适合什么人群(1)在校学生,想学习
2023年3月30日
其他

《数据分析与挖掘实战宝典》1.0 版来了!

想进一步了解的,可以加我微信dkl88191咨询。目前获取方法有两种:1、加城哥知识星球,可以免费获取该文档,同时可以解锁其他原创实战内容;2、想单独购买,可以加我微信获取。
2023年3月25日
其他

《数据分析与挖掘面试宝典》1.0 版本来了!

大家好,我是城哥,历时半年的梳理和修改,我的《数据分析与挖掘面试宝典》(以下简称《面试宝典》)终于可以跟大家见面了。为什么写这个宝典这两年的就业形势,我相信大家看新闻都应该知晓的。应聘数据分析挖掘岗众多,岗位要求越来越高,很多小伙伴很难在短时间内掌握这么多的知识点,且没有专业的人给予专业的指导,只能靠自己梳理和不断试错,结果是耗费了大量的精力,错过了很多的面试机会。我整理了这份《面试宝典》,希望可以帮助更多的同学顺利入职数据运营、数据分析、数据挖掘算法等岗位。整理成型后的文档字数
2023年3月23日
其他

官宣!我的知识星球对外开放了!

大家好,经过两个多月的准备,今天我决定公开一件事:开放我的知识星球『靠谱的城哥』。城哥简介城哥目前在一线互联网公司工作,从事
2023年3月20日
其他

真香啊!又一个打包神器 Nuitka

└─demo.exe//生成的exe文件├─logo.ico//demo的图标└─demo.py//main文件当然这里你会发现真正运行exe的时候,会报错:no
其他

执行count(1)、count(*) 、count(列名) 到底有什么区别?

count(*)从执行计划来看,count(1)和count(*)的效果是一样的。当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count(*)用时多!
其他

太实用了!4种方法教你轻松制作交互式仪表板!

sns.load_dataset('titanic')titanic.head()我想创建一个交互式仪表板,获取按类别变量分组的泰坦尼克号票价平均值。在这种情况下,使用如下代码:#Creating
其他

Python 开发者必备的 150 个 Linux 命令,速度收藏~

个)useradd添加用户。usermod修改系统已经存在的用户属性。userdel删除用户。groupadd添加用户组。passwd修改用户密码。chage修改用户密码有效期限。id查看用户的
其他

Pandas 对数值进行分箱操作的 4 种方法

分别表示边界值是包含的和不包含的。我们需要确定哪个分数在感兴趣的区间之间,并为其分配相应的等级值。注意看下面的不同的参数表示是否包含边界df.loc[df['score'].between(0,
其他

梳理了半宿!这或许是最全异常检测方法的总结了!

↓推荐关注↓大家好,异常检测一直是机器学习中一个非常重要的子分支,在各种人工智能落地应用,例如计算机视觉、数据挖掘、NLP中,异常检测算法都是很热门的研究方向,特别是大数据时代,人工处理数据的速度已经远远赶不上机器了,所以更快地检测数据中的异常情况成为了我们非常重要的任务。今天我梳理了在日常工作中最频繁使用的异常检测方法(附资料来源和代码),内容较长,喜欢本文记得收藏、关注、点赞。一、基于分布的方法1.
其他

用户画像标签体系建设指南

↓推荐关注↓01什么是用户画像用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。用户画像是对现实世界中用户的建模,用户画像应该包含目标,方式,组织,标准,验证这5个方面。目标:指的是描述人,认识人,了解人,理解人。方式:又分为非形式化手段,如使用文字、语言、图像、视频等方式描述人;形式化手段,即使用数据的方式来刻画人物的画像。组织:指的是结构化、非结构化的组织形式。标准:指的是使用常识、共识、知识体系的渐进过程来刻画人物,认识了解用户。验证:依据侧重说明了用户画像应该来源事实、经得起推理和检验。在产品早期和发展期,会较多地借助用户画像,帮助产品人员理解用户的需求,想象用户使用的场景,产品设计从为所有人做产品变成为三四个人做产品,间接的降低复杂度。用户画像使用的标签是网络标签的一种深化应用方式,是某一种用户特征的符号表示,是我们观察、认识和描述用户的一个角度,用户标签是基于用户的特征数据、行为数据和消费数据进行统计计算得到的,包含了用户的各个维度。而所谓的用户画像就是可以用用户标签的集合来表示的,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。02用户标签的分类1、按照标签的变化频率,可分为静态标签和动态标签。静态标签是指用户与生俱来的属性信息,或者是很少发生变化的信息,比如用户的姓名、性别、出身日期,又例如用户学历、职业等,虽然有可能发生变动,但这个变动频率是相对比较低或者很少发生变化的。动态标签是指非常经常发生变动的、非常不稳定的特征和行为,例如“一段时间内经常去的商场、购买的商品品类”这类的标签的变动可能是按天,甚至是按小时计算的。2、按照标签的指代和评估指标的不同,可分为定性标签和定量标签。定性标签指不能直接量化而需通过其他途径实现量化的标签,其标签的值是用文字来描述的,例如“用户爱好的运动”为“跑步、游泳”,“用户的在职状态”为“未婚”等。定量标签指可以准确数量定义、精确衡量并能设定量化指标的标签,其标签的值是常用数值或数值范围来描述的。定量标签并不能直观的说明用户的某种特性,但是我们可以通过对大量用户的数值进行统计比较后,得到某些信息。例如“用户的年龄结构”为“20-25岁”、“单次购买平均金额”为“300元”,“购买的总金额”为“20万元”……,当我们获得以上信息是否就可以将该用户划分为高价值客户呢?3、按照标签的来源渠道和生成方式不同,可以分为基础标签、业务标签、智能标签。基础标签主要是指对用户基础特征的描述,比如:姓名、性别、年龄、身高、体重等。业务标签是在基础标签之上依据相关业务的业务经验并结合统计方法生成的标签,比如:用户忠诚度、用户购买力等标签就是根据用户的登录次数、在线时间、单位时间活跃次数、购买次数、单次购买金额、总购买金额等指标计算出来的。业务标签可以将经营固化为知识,为更多的人使用。智能标签是利用人工智能技术基于机器学习算法,通过大量的数据计算而实现的自动化、推荐式的进行打标签,比如今日头条的推荐引擎就是通过智能标签体系给用户推送其感兴趣的内容的。4、按照标签体系分级分层的方式,可以分为一级标签、二级标签、三级标签等,每一个层级的标签相当于一个业务维度的切面。在标签应用中按照不同的业务场景进行标签组合,形成相应用户画像。5、按照数据提取和处理的维度,可以将标签分为事实标签,模型标签,预测标签。这种用户标签的分类方式更多是面向技术人员使用,帮助他们设计合理的数据处理单元。事实标签。既定事实,直接从原始数据中提取,描述用户的自然属性、产品属性、消费属性等,事实标签其本身不需要模型与算法,实现简单,但规模需要不断基于业务补充与丰富,比如:姓名、购买的产品品类、所在小区等。模型标签。对用户属性及行为等属性的抽象和聚类,通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数,标签代表用户的兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等。预测标签。参考已有事实数据,基于用户的属性、行为、位置和特征,通过机器学习、深度学习以及神经网络等算法进行用户行为预测,针对这些行为预测配合营销策略、规则进行打标签,实现营销适时、适机、适景推送给用户。例如试用了某产品A后预测可能还想买产品B并推送购买链接给该用户。03用户画像标签体系的建立1、什么是标签体系用户画像是对现实用户做的一个数学模型,在整个数学模型中,核心是怎么描述业务知识体系,而这个业务知识体系就是本体论,本体论很复杂,我们找到一个特别朴素的实现,就是标签。标签是某一种用户特征的符号表示。是一种内容组织方式,是一种关联性很强的关键字,能方便的帮助我们找到合适的内容及内容分类。(注:简单说,就是你把用户分到多少个类别里面去,这些类是什么,彼此之间有什么关系,就构成了标签体系)标签解决的是描述(或命名)问题,但在实际应用中,还需要解决数据之间的关联,所以通常将标签作为一个体系来设计,以解决数据之间的关联问题。一般来说,将能关联到具体用户数据的标签,称为叶子标签。对叶子标签进行分类汇总的标签,称为父标签。父标签和叶子标签共同构成标签体系,但两者是相对概念。例如:下表中,地市、型号在标签体系中相对于省份、品牌,是叶子标签。用户画像标签体系创建后一般要包含以下几个方面的内容(1)标签分类用户画像标签可以分为基础属性标签和行为属性标签。由于基于一个目标的画像,其标签是在动态扩展的,所以其标签体系也没有统一的模板,在大分类上,与自身的业务特征有很大的关联,在整体思路上可以从横纵两个维度展开思考:横向是产品内数据和产品外数据,纵向是线上数据和线下数据。而正中间则是永恒不变的“人物基础属性”。如果说其他的分类因企业特征而定,那么只有人物特征属性(至于名字叫什么不重要,关键是内涵)是各家企业不能缺失的板块。所谓人物基础属性指的是:用户客观的属性而非用户自我表达的属性,也就是描述用户真实人口属性的标签。所谓非“自我表达”,举例来说,某产品内个人信息有性别一项,用户填写为“女”,而通过用户上传的身份证号,以及用户照片,用户购买的产品,甚至用户打来的客服电话,都发现该用户性别是“男性”。那么在人物基础属性中的性别,应该标识的是“男性”,但是用户信息标签部分,自我描述的性别则可能标注为女性。(2)标签级别(标签的体系结构)分级有两个层面的含义,其一是:指标到最低层级的涵盖的层级;其二是指:指标的运算层级。其一非常好理解,这里重点说运算层级。标签从运算层级角度可以分为三层:事实标签、模型标签、预测标签。事实标签:是通过对于原始数据库的数据进行统计分析而来的,比如用户投诉次数,是基于用户一段时间内实际投诉的行为做的统计。模型标签:模型标签是以事实标签为基础,通过构建事实标签与业务问题之间的模型,进行模型分析得到。比如,结合用户实际投诉次数、用户购买品类、用户支付的金额等,进行用户投诉倾向类型的识别,方便客服进行分类处理。预测标签:则是在模型的基础上做预测,比如针对投诉倾向类型结构的变化,预测平台舆情风险指数。(3)标签命名&赋值我们用一张图来说明一下命名和赋值的差别,只要在构建用户标签的过程种,有意识的区别标签命名和赋值足矣,不再赘述。(4)标签属性标签属性可以理解为针对标签进行的再标注,这一环节的工作主要目的是帮助内部理解标签赋值的来源,进而理解指标的含义。如图所示,可以总结为5种来源:1、固有属性:是指这些指标的赋值体现的是用户生而有之或者事实存在的,不以外界条件或者自身认知的改变而改变的属性。比如:性别、年龄、是否生育等。2、推导属性:由其他属性推导而来的属性,比如星座,我们可以通过用户的生日推导,比如用户的品类偏好,则可以通过日常购买来推导。3、行为属性:产品内外实际发生的行为被记录后形成的赋值,比如用户的登陆时间,页面停留时长等。4、态度属性:用户自我表达的态度和意愿。比如说我们通过一份问卷向用户询问一些问题,并形成标签,如询问用户:是否愿意结婚,是否喜欢某个品牌等。当然在大数据的需求背景下,利用问卷收集用户标签的方法效率显得过低,更多的是利用产品中相关的模块做了用户态度信息收集。5、测试属性:测试属性是指来自用户的态度表达,但并不是用户直接表达的内容,而是通过分析用户的表达,结构化处理后,得出的测试结论。比如,用户填答了一系列的态度问卷,推导出用户的价值观类型等。值得注意的是,一种标签的属性可以是多重的,比如:个人星座这个标签,既是固有属性,也是推导属性,它首先不以个人的意志为转移,同时可以通过身份证号推导而来。即便你成功了建立用户画像的标签体系,也不意味着你就开启了用户画像的成功之路,因为有很大的可能是这些标签根本无法获得,或者说无法赋值。标签无法赋值的原因有:数据无法采集(没有有效的渠道和方法采集到准确的数据,比如用户身份证号)、数据库不能打通、建模失败(预测指标无法获得赋值)等等。
其他

效果提升4倍!这样做模型预测才是真香啊!

↓推荐关注↓大家好,前两天有粉丝问有关算法预测的问题。今天我们就以股价预测为例,分享一下两种预测方法:常规方式股票预测全新方式股票预测经过验证,全新方式预测效果是常规方式的4倍,喜欢本文记得点赞、收藏、关注。1.
其他

用于时间序列异常值检测的全栈机器学习系统

PrimitiveStep(primitive=index.get_primitive('d3m.primitives.tods.data_processing.column_parser'))
其他

MySQL中的开窗函数

↓推荐关注↓目录前言窗口函数的格式函数(Function)的类型开窗函数over()窗口函数使用ROW_NUMBER()RANK()与DENSE_RANK()LEAD()与LAG()FIRST_VALUE()与LAST_VALUE()NTILE()MAX()、MIN()、AVG()、SUM()与COUNT()窗口从句的使用窗口从句进阶前言MySQL从8.0版本开始支持窗口函数了,窗口函数又名开窗函数,属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数。窗口函数用于计算基于组(GROUP
其他

基于 Echarts + Python Flask 动态实时大屏监管系统

Edge,360等;服务器采用python语言编写,配置好python环境即可。二、整体架构设计前端Echarts开源库:使用
其他

40000 字!全网最强 Matplotlib 实操指南!

transform=fig.transFigure);注意默认情况下,文字是在指定坐标位置靠左对齐的:这里每个字符串开始的"."的位置就是每种转换的坐标位置。transData坐标给定的是通常使用的
其他

一次非常有意思的 SQL 优化经历:从30248.271s 到 0.001s

10都会使用到索引,即索引的第一个字段sex要出现在where条件中索引覆盖就是查询的列都建立了索引,这样在获取结果集的时候不用再去磁盘获取其它列的数据,直接返回索引数据即可如:select
其他

推荐收藏!Python 史上最全第三方库收集(800+)

实现。Pygments:通用语法高亮工具。pyparsing:生成通用解析器的框架。python-nameparser:把一个人名分解为几个独立的部分。python-user-agents:浏览器
其他

真棒啊!一文带你用 sklearn 做特征工程!

使用sklearn做特征工程特征工程是什么?有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里介绍的特征处理库也十分强大!本文中使用sklearn中的IRIS(鸢尾花)数据集[1]来对特征处理功能进行说明。IRIS数据集由Fisher在1936年整理,包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。目标值为鸢尾花的分类(Iris
其他

超全!实时用户画像实践经验

图源:《用户画像》01前言知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面,期望拥有可以实时响应的用户行为流,同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。在
其他

Linux 定时任务调度(crontab),太实用了!

crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。可以使用crontab定时处理离线任务,比如每天凌晨2点更新数据等,经常用于系统任务调度。服务启动和关闭一般Linux系统中都会装有crontab,如果没有安装可以使用包管理工具安装:#
其他

推荐收藏!17条好用的 Python 技巧分享!

print在Python中使用Print()函数,有时候的输出贼拉拉丑陋,此时我们使用pprint可以使输出更加美观,样例如下:from
其他

万人核酸太烦人?复旦博士生李小康写下130行代码取代人工!

智能化「抗疫」神器是如何诞生的?李小康,复旦信息科学与工程学院在读的博士生,专业为生物医学工程,他平时的研究正是生物医学与信息科学的结合,希望通过信息化手段来改变生物医学现状。
其他

Pandas 中 Apply 函数加速百倍的技巧

虽然目前dask,cudf等包的出现,使得我们的数据处理大大得到了加速,但是并不是每个人都有比较好的gpu。非常多的朋友仍然还在使用pandas工具包,但有时候真的很无奈,pandas的许多问题我们都需要使用apply函数来进行处理,而apply函数是非常慢的,本文我将介绍如何加速apply函数600倍的技巧。喜欢记得收藏、点赞、关注。实验对比01
其他

算法模型策略、工作思路以及个人成长的思考

'maxDepth:'+str(maxDepth)+',nEstimators:'+str(nEstimators)+',learningRate:'+str(learningRate)
其他

十大经典排序算法 Python 版实现(附动图演示)

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲来源:大数据DT排序算法是《数据结构与算法》中最基本的算法之一,也是面试中最频繁考察的知识点。今天在本文中,我将详细介绍10种常见的内部排序算法,及如何用Python实现。排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括:关于时间复杂度:平方阶
其他

使用 Hyperopt 和 Plotly 可视化超参数优化

数据框,以便我们可以轻松分析超参数设置的历史。一旦我们在数据框中获得了数据,我们就可以轻松地创建可视化,让我们更好地了解为什么一组特定的超参数设置是最好的。特别是,我们已经证明,通过使用
其他

最强 Python 数据可视化库,没有之一!

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲今天给大家分享一篇可视化干货,介绍的是功能强大的开源
其他

拿了北京户口!却是跌落的开始....

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲大家好,我是城哥。我一直坚信,在所有光鲜艳丽的背后,都是你看不到的努力,以及不为人知的的辛酸泪。今天在知乎问题「有北京户口的北漂生活状态是怎么样的」下面,有个回答戳中了让人感触颇深,作者匿名。来源:zhihu.com/question/26653645/answer/2159143082正文如下毕业进了一家央企,拿到了北京户口,集体户。现在的北京户口非常不好拿,如果不考公务员的话,基本只有去央企才可以,小的国企根本解决不了,一般的央企说尽力帮你申请,如同须弥穿针的才能在某个面试中听到面试官说“我们可以解决户口,for
其他

保姆级教程:使用 LSTM 进行多变量时间序列预测

与预测进行比较。但是我们一开始就对数据进行了缩放,所以首先我们必须做一些逆缩放过程。scaler.inverse_transform(prediction)报错了,这是因为在缩放数据时,我们每行有
其他

最该收藏的8款可视化工具,人人都有选择!

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲数据可视化是近几年比较热门的话题,作为一名数据分析师,不仅要能挖掘数据存在的价值,而且要以可视化的方式展示出来。大家一般在数据分析方面十拿九稳,但一提到可视化就有些忐忑了。老李给大家梳理了8个可视化工具,分成不同的类别,供大家自由选择。第一类:零代码类,顾名思义不用写代码,适合想做基础可视化图表的业务人员和新手。第二类:编程开发类,需要写代码,能够实现个性化、定制化图表,适合专业工程师和报表开发人员。第三类:专业工具类,专门针对不同需求像制作地图、金融数据和时间轴等,适合单一需求的人员使用。零代码类1)RAWGraphsRAWGraphs是一个在线的数据可视化开源工具,具有高度可定制性和可扩展性。操作简单,只需进入网站,上传数据,设计出你想要的可视化效果,最后导出为SVG格式或PNG格式的图片。此外,RAWGraphs使用中,数据只会在网页端进行处理,保证了数据的安全性。缺点:全英文页面,不支持动态2)Fine
其他

微软拆分VS Code Python扩展,再推3款独立扩展!

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲文
其他

妙啊!一行代码轻松解决 Python 运行速度!

不是吗?我并不是说使用生产者/消费者模型处理多线程/多进程任务是错误的(事实上,这一模型自有其用武之地)。只是,处理日常脚本任务时我们可以使用更有效率的模型。问题在于…首先,你需要一个样板类;
其他

值得收藏!五种常用的特征选择方法

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题。去掉取值变化小的特征英文:Removing
其他

2022年最该收藏的8个数据分析模型

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲大家在工作中是不是经常要做各种分析,但又常常遇到无从下手,抓不住重点,搞不清关键数据的情况。俗话说“工欲善其事,必先利其器。”一个好用的数据分析模型,能给我们提供一种视角和思维框架,从而帮我们理清分析逻辑,提高分析准确性。我研究数据分析也很多年了,今天特意为大家整理出了8大常用数据分析模型,帮助大家快速提高数据分析能力。1、AARRR模型AARRR模型又叫海盗模型,这个模型把实现用户增长拆分成了
其他

保姆级教程:Anaconda 安装及使用

依赖项检查pip:不一定会展示所需其他依赖包。安装包时或许会直接忽略依赖项而安装,仅在结果中提示错误。conda:列出所需其他依赖包。安装包时自动安装其依赖项。可以便捷地在包的不同版本中自由切换。→
其他

整理了 100 个必备的 Python 函数,建议收藏!

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲来源:https://sslljy.blog.csdn.net/?type=blog前言大家好,我是城哥。新手在做写代码的时候容易卡壳,尤其当接触的函数以及其他知识比较多的时候,经常会看完需求之后不知道自己该用什么方法来实现它,实现的逻辑可能你有,但怎么该用什么函数给忘了,这其实就是知识的储备不够,你记不住哪个函数有什么作用,自然一头雾水。这几天我专门整理了Python常用的一些函数,从最基础的输入输出函数到正则等12个板块的,总共100多个常用函数,方便小伙伴们进行快速地记忆,每天快速过一遍,用的时候再加深一下,慢慢地你就会摆脱写代码卡壳的状况。虽说自学编程的时候我们强调更多的东西是理解和实际去敲代码,但有些东西你是要必须牢记的,否则你写代码将寸步难行。老手当然已经烂记于心,新手想要快速得心应手开发,记住高频使用的函数就是一个好法子。1.
其他

理论+实战,一文详解最常使用的10个聚类算法(附代码)

来源:海豚数据科学实验室大家好,今天给大家分享一篇关于聚类的文章,10种聚类介绍和Python代码。聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在
其他

安利个神器, Python 脚本打包 exe!

去下载,地址是:https://github.com/pythonprogrammingbook/simple_calculator在打包时,我们要进行的配置主要有:Script
其他

60 个神级 VS Code 插件!

关注"Python学习与数据挖掘"设为“置顶或星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲大家好,本文不做任何编辑器的比较,只是我本人日常使用
其他

机器学习入门必备,使用 scikit-learn 构建模型的万能模板!

关注"Python学习与数据挖掘"设为“置顶或星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲来自机器学习研究院用Python建立机器学习模型,得益于Python生态下的包共享机制,机器模型构建的过程其实已经变得非常简单了,很多听起来牛逼的算法,其实根本不需要自己实现,甚至都不需要知道这些算法的具体原理。你只需要两步就能构建起自己的机器学习模型:明确你需要解决的问题是什么类型,以及知道解决该类型问题所对应的算法。从skicit-learn中调用相应的算法构建模型即可。是的!在机器学习领域,如果你只是抱着体验机器学习的心态,实现起来就是这么简单。第一步很好解决常见的问题类型只有三种:分类、回归、聚类。而明确具体问题对应的类型也很简单。比如,如果你需要通过输入数据得到一个类别变量,那就是分类问题。分成两类就是二分类问题,分成两类以上就是多分类问题。常见的有:判别一个邮件是否是垃圾邮件、根据图片分辩图片里的是猫还是狗等等。如果你需要通过输入数据得到一个具体的连续数值,那就是回归问题。比如:预测某个区域的房价等。常用的分类和回归算法算法有:SVM
其他

这或许是你见过的最全面的Python重点知识总结!

selector不同枚举类间不能进行比较同一枚举类间只能进行相等的比较枚举类的使用(编号默认从1开始)为了避免枚举类中相同枚举值的出现,可以使用@unique装饰枚举类#枚举的注意事项from
其他

7 个实用的 Python 自动化代码,别再重复造轮子了!

webdriver.Chrome()driver.maximize_window()driver.get("https://www.zhihu.com/question/29134042")i
其他

超全!这是最频繁使用的10个聚类算法(附代码)

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲来源:海豚数据科学实验室大家好,今天分享一篇关于聚类的文章,10种聚类介绍和Python代码。聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在
其他

效率倍增!Jupyter Lab 十大高生产力插件!

关注"Python学习与数据挖掘"设为“星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲转自:数据studio如果你是一个用
其他

用Python自动化操作PPT,看完这篇文章就够了!

关注"Python学习与数据挖掘"设为“置顶或星标”,第一时间送达干货资料专栏李航老师《统计学习方法(第二版)》课件&代码【视频+PPT】李宏毅老师机器学习40讲作者:超级大洋葱806https://tangxing.blog.csdn.net/article/details/1095688301.PPT自动化能干什么?有什么优势?它可以代替你自动制作PPT它可以减少你调整用于调整PPT格式的时间它可以让数据报告风格一致总之就是:它能提高你的工作效率!让你有更多时间去做其他事情!2.使用win32com操作ppt官方文档:https://docs.microsoft.com/zh-cn/office/vba/api/powerpoint.shape.copy2.1