查看原文
其他

2017年度15个最好的数据科学领域Python库

2018-01-07

作者 Igor Bobriakov

最近使用medium,觉得这个网站文章内容质量很高。如果大家不厌烦英语的话,可以在medium上阅读高质量的文章,包括但不限于python。文章不多,精品很多。

由于近年来Python已经在数据科学领域引起了很大的关注,我想根据最近的经验,为数据科学家和工程师列出一些最有用的库。

由于所有的库都是开源的,我们增加了来自Github的提交,贡献者,计数和其他指标,这可以作为python数据科学库流行度的代理指标。

核心库

1、Numpy

Numpy(stands for Numerical Python)当开始尝试用Python解决科学任务时,numpy是基石,它能操作数组和矩阵提供了丰富的特性。该库提供了NumPy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。

2.SciPy

SciPy是一个工程和科学软件库。SciPy包含线性代数,优化,集成和统计的模块。 SciPy库的主要功能是建立在NumPy的基础之上,因此它的数组大量使用了NumPy。 

3.Pandas

Pandas是一个可以方便处理表数据(经常接触,易于理解的excell表)。数据清洗的完美工具,被设计用来快速简单的数据操作,聚合和可视化。 在这个库中主要由两种数据结构:

pandas.Series - 1维

pandas.DataFrames - 2维

如下只是我们基于Pandas能做的事情的小清单:

  • 在DataFrame中轻易地删除或者添加列

  • 把数据结构转换为DataFrame对象

  • 处理缺失数据,用NaNs代表

  • GroupBy方法

  • 可视化

Google Trends history 

GitHub pull requests history 

4.Matplotlib

MatPlotlib是python可视化库,它让Python正成为像MatLab或者Mathematica这样的科学工具的有力竞争者。然而,这个库相当底层,意味着你需要编写更多的代码才能达到高级的可视化效果,通常会比使用更多的高级工具付出更多的努力,但总体来说努力是值得的。

只需要一点功夫,你就能做出下面任何的可视化方法:

  • 线图

  • 散点图

  • 条形图和直方图

  • 饼状图

  • 茎图

  • 等高线图

  • 矢量场图

  • 频谱图

还有使用Matplotlib创建标签,图例和许多其他格式化实体的功能。 基本上,一切都是可定制的。

该库由不同的平台支持,并使用不同的GUI套件来描述所得到的可视化。 不同的IDE(如IPython)支持Matplotlib的功能。

还有一些其他的库可以使可视化变得更加容易。 

5.Seaborn

Seaborn主要聚焦于统计模型的可视化;这些可视化包括总结数据但仍描绘整体分布的热图。Seaborn是基于Matplotlib建立的,并高度依赖于那个包。 

6.Bokeh

Boken是另一个强大的可视化库,目标是建立交互可视化的图标。与之前的库相比,这个库独立于Matplotlib。 正如我们已经提到的那样,Bokeh的主要聚焦在交互性,它通过现代浏览器以数据驱动文档(d3.js)的风格呈现。 

7.Plotly

简单介绍一下Plotly。它是一个基于Web的工具箱,将API暴露给某些编程语言(其中包括Python)来构建可视化。 在http://plot.ly网站上有一些强大的,开箱即用的图形。为了使用Plotly,您将需要设置您的API密钥。图形将被处理在服务器端,并将在互联网上发布

Google Trends history 

GitHub pull requests history 

机器学习

8.SciKit-Learn

Scikits专为特定功能(如图像处理和机器学习辅助)而设计。 在这些领域,其中最突出的一个是scikit-learn。该软件包建立在SciPy的上层,并大量使用其数学操作。

scikit-learn公开了一个简洁和一致的界面,结合常见的机器学习算法,使得把机器学习带入生产系统变得简单。 此库有着高质量的代码和良好的文档,并使用简单性能优越,事实上是使用Python进行机器学习的行业标准。

深度学习 - Keras/TensorFlow/Theano

在深度学习方面,Python中最突出和最方便的库之一是Keras,它可以在TensorFlow或者Theano之上运行。让我们来看一下他们的一些细节。

9.Theano

首先,让我们谈谈Theano。

Theano是一个Python包,它定义了与NumPy类似的多维数组,以及数学运算和表达式。 这个库是自编译的,使其能够在所有架构上高效运行。 最初由蒙特利尔大学机器学习组开发,主要用于机器学习的需求。

重要的是要注意的是,Theano与NumPy在低层次的操作上紧密集成。 该库还优化了GPU和CPU的使用,使数据密集型计算的性能更快。

效率和稳定性调整允许更精确的结果,甚至非常小的值,例如,log(1 + x)的计算将给出x的最小值的认知结果。

10. TensorFlow

TensorFlow是由Google的开发人员开发,它是一个图形化的数据流计算开源库,专注于机器学习。 它旨在满足Google环境对训练神经网络的高度要求,并且是基于神经网络的机器学习系统DistBelief的继任者。然而,TensorFlow并不是严格用于谷歌范围的科学用途 - 在一般的实际应用中同样有效。

TensorFlow的关键特征是其多层节点系统,可以在大型数据集上快速训练人工神经网络。 这为Google的语音识别和图像对象识别提供了支持。 

11.Keras

最后,我们来看看Keras。它是一个用Python编写的用于在高级界面构建神经网络的开源库。它简单易懂又有着高度可扩展性。它使用Theano或TensorFlow作为后端,但Microsoft现在将CNTK(Microsoft的认知工具包)集成为新的后端。

设计中的极简方法旨在通过建立极小集进行快速和简单的实验。

Keras 真的非常容易入门而且可以通过快速标准逐渐深入。它是用纯Python编写的,高度模块化而又可扩展。尽管它的轻松,简单和高度定向,Keras仍然对大型模型有着足够深和有力的机器学习能力。

Keras的核心是基于层,其他一切都围绕着它们构建。数据预处理为张量tensor,第一层layer负责输入张量,最后一层负责输出,并建立模型。

Google Trends history 

GitHub pull requests history 

自然语言处理。

12.NLTK

这套工具包的名称代表自然语言工具包,顾名思义,它用于符号和统计自然语言处理的常见任务。 NLTK旨在促进NLP及相关领域(语言学,认知科学人工智能等)的教学和研究,目前正在被重点关注。

NLTK的功能允许许多操作,例如文本标记,分类和标记,名称实体标识,建立语言树,显示语言间和句子内依赖性,词根,语义推理。 所有的构建块都可以为不同的任务构建复杂的研究系统,例如情绪分析,自动总结。

13.Gensim

它是一个用于Python的开源库,可以用来进行向量空间建模和主题建模的工具。 这个工具包不仅可以进行内存处理,还设计来高效处理大型文本。效率通过使用NumPy数据结构和SciPy操作来实现。既高效又易于使用。

Gensim旨在与原始和非结构化数字文本一起使用。 Gensim实现了诸如分层Dirichlet进程(HDP),潜在语义分析(LSA)和潜在Dirichlet分配(LDA)之类的算法,以及tf-idf,随机投影,word2vec和document2vec便于检查文本中的重复模式的文本的一套文件(通常称为语料库)。 所有的算法是无监督的 - 不需要任何参数,唯一的输入是语料库。

Google Trends history

 GitHub pull requests history 

数据挖掘、统计

14.Scrapy

Scrapy是用于从网络检索结构化数据(如联系人信息或URL)的爬行程序(也称为蜘蛛机器人)的库。

它是开源的,用Python编写。 它的设计严格按照爬行的方式,正如它的名字,但是它已经在完整的框架中发展,能够从API采集数据并作为通用爬虫。

该库在界面设计中着名的“不要重复自己” - 它提示用户编写将要重复使用的通用代码,从而构建和缩放大型爬虫。

Scrapy的架构围绕着Spider类构建,包含了爬行器跟踪的一系列指令。

15.Statsmodels

正如您可能从名称中猜出的那样,statsmodels是一个用于Python的库,使用户能够通过使用各种统计模型估计方法进行数据挖掘并执行统计断言和分析。

许多有用的特征是描述性的,并通过使用线性回归模型,广义线性模型,离散选择模型,鲁棒线性模型,时间序列分析模型,各种估计量进行统计。

该库还提供了可扩展的绘图功能,专门为统计分析和在进行大数据统计时表现良好而设计。

结论

这些库被许多数据科学家和工程师认为是该列表的首位,值得一看,并至少熟悉它们。

以下是每个库Github活跃程度的详细统计资料:

当然,这不是完全详尽的列表,还有许多其他库,工具包和框架也是非常有用的,尤其是针对一些特别的任务。 一个很好的例子是不同的SciKit软件包,专注于特定领域,如用于处理图像的SciKit-Image。

数据采集

【视频教程】用python批量抓取简书用户信息

【视频讲解】Scrapy递归抓取简书用户信息

【视频讲解】在scrapy框架中如何使用selenium?

【实战视频】使用scrapy写爬虫-爬知乎live

如何将html中的表格数据保存下来

美团商家信息采集神器

使用gevent实现高效异步请求

selenium驱动器配置详解

爬虫神器PyQuery的使用方法

pyquery爬取豆瓣读书

pyquery一些自定义的用法

【视频】猫途鹰网站评论数据抓取

简易SQLite3数据库学习

【视频教程】对视频进行基本操作

【视频】抓包小练习-B站评论数据抓取

【视频】爬取饿了么平台上的门店信息

如何抓取视频资源-以头条视频为例

当爬虫遭遇验证码,怎么办

【视频】手把手教你抓美女~

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

北邮人论坛爬虫实操:session代替cookies

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

文本处理分析

gensim:用Word2Vec进行文本分析

RAKE:快速自动抽取关键词算法

对于中文,nltk能做哪些事情

如何对csv文件中的文本数据进行分析处理

复杂网络分析数据准备篇

文本分析之网络关系

用词云图解读“于欢案”

基于共现发现人物关系的python实现

用pyecharts制作词云图

留在网上的每个字,都在泄露你的身份

图片数据处理

OpenCV:快速入门图片人脸识别

好玩的OpenCV:图片操作的基本知识(1)

好玩的OpenCV:图像操作的基本知识(2)

OpenCV:计算图片有多色

如何对数据进行各种排序?

其他

Python中处理日期时间库的使用方法

迅雷不给力,我DIY了个下载器

【视频】初学者必看:python环境配置

开扒皮自己微信的秘密

初识装饰器函数

计算运行时间-装饰器实现

花十分钟,给爱机安装个MongoDB

chardet库:轻松识别文件的编码格式

使用Python登录QQ邮箱发送QQ邮件

WTF Python: 开启你的懵逼模式

8行代码实现微信聊天机器人

使用Python+OpenCV进行面部合成

优雅简洁的列表推导式

【资源帖】简单易懂的机器学习视频教程

为什么你要为2019,而不是2018做计划?


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存