Scikit-learn 发布 0.20版本！新增处理缺失值、合并Pandas等亮点功能

专注AI分享 AI科技大本营 2018-10-26

整理 | Jane

出品 | AI科技大本营

之前一直预告 Scikit-learn 的新版本会在 9 月发布，在马上就要结束的 9 月，我们终于迎来了 Scikit-learn 0.20。

此版本修复了大量的错误和功能，增强了 Scikit-learn 库，改善了文档和示例。在此对 Scikit-learn 的贡献者表示感谢！

新版本已经上线，小伙伴们是不是已经迫不及待想去试试了，在此之前，营长要特别提醒大家：Scikit-learn 0.20 是支持 Python 2.7 和 Python 3.4 的最后一个版本，从 Scikit-learn 0.21 开始，就只支持 Python 3.5 及更高版本的 Python。

Scikit-learn 作为基于 Python 语言的机器学习工具，一直备受关注。它是简单高效的数据挖掘与分析工具，建立在 Numpy、SciPy 和 Matplotlib 上，亦可在多种环境中重复使用，更重要的是 Scikit-learn 是开源的。

下面我们就来一起看一下新版本有哪些值得大家关注的亮点：

1.增加对数据科学用例的支持；如缺失值、类别变量、异类数据及分布异常的特征/目标。之前由 NaNs 表示的特征缺失值，现在被按列预处理（如scalers）接受。每个特征都无需考虑缺失值，包含缺失值的数据也可以被转换。尽管缺少数据，新模块 impute 为学习提供了估算器。

2.ColumnTransformer 处理 Pandas 中不同特征或不同列的情况。DataFrame 需要不同的预处理。字符串或 Pandas 的类别数据列都可以用 OneHotEncoder 或 OrdinalEncoder 进行编码。

3.TransformedTargetRegressor 可以帮助把回归目标转换为模型。PowerTransformer 和 KBinsDiscretizer 将加入 quantileTransformer 作为非线性变换。

4.除此之外，还为几个估计器（KMeans、Bayesian ridge 和 KernelDensity）增加了支持样本权重的功能，并且改进了估计器（ MLPRegressor, GradientBoostingRegressor 和 SGDRegressor）的停止标准。

5.伴随此版本还首次公开发布了由 Joel Nothman 开发的通用术语和 API 列表（ Glossary of Common Terms and API Elements），旨在帮助用户和贡献者更熟悉 Scikit-learn 中的术语和资源。

除了这些亮点外，还修复了很多 models 和 bug，大家可以自行查看 Scikit-learn 0.20 更新说明。

Scikit-learn 0.20 新版本说明：

http://scikit-learn.org/dev/whats_new.html#version-0-20

核心术语表：

http://scikit-learn.org/dev/glossary.html#glossary

Scikit-learn 中文版本（还未更新至 0.20）

http://sklearn.apachecn.org/cn/0.19.0/

好啦~到这里大家就准备去更新你的 Scikit-learn 吧！在发布新版本之前我们就给大家预告过一个教程（Scikit-learn 中合并 Pandas 后的新教程），这次大家可以在新版本中直接试验一下，有问题我们下面评论区再聊~

2018 AI开发者大会

◆

拒绝空谈，技术争鸣

◆

2018 AI开发者大会（AI NEXTCon）由中国IT社区CSDN与硅谷AI社区AICamp联合出品的AI技术与产业年度盛会。多年经验淬炼，如今蓄势待发：将有近百位中美顶尖AI专家、知名企业代表以及千余名AI开发者齐聚北京，进行技术解读和产业论证。我们只讲技术，拒绝空谈，诚挚邀请AI业内人士一起共铸人工智能新篇章！

2018 AI开发者大会首轮重磅嘉宾及深度议题现已火热出炉，扫码抢“鲜”看。国庆特惠，购票立享 5 折优惠！

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！