Scikit-learn 发布 0.20版本!新增处理缺失值、合并Pandas等亮点功能
整理 | Jane
出品 | AI科技大本营
之前一直预告 Scikit-learn 的新版本会在 9 月发布,在马上就要结束的 9 月,我们终于迎来了 Scikit-learn 0.20。
此版本修复了大量的错误和功能,增强了 Scikit-learn 库,改善了文档和示例。在此对 Scikit-learn 的贡献者表示感谢!
新版本已经上线,小伙伴们是不是已经迫不及待想去试试了,在此之前,营长要特别提醒大家:Scikit-learn 0.20 是支持 Python 2.7 和 Python 3.4 的最后一个版本,从 Scikit-learn 0.21 开始,就只支持 Python 3.5 及更高版本的 Python。
Scikit-learn 作为基于 Python 语言的机器学习工具,一直备受关注。它是简单高效的数据挖掘与分析工具,建立在 Numpy、SciPy 和 Matplotlib 上,亦可在多种环境中重复使用,更重要的是 Scikit-learn 是开源的。
下面我们就来一起看一下新版本有哪些值得大家关注的亮点:
1.增加对数据科学用例的支持;如缺失值、类别变量、异类数据及分布异常的特征/目标。之前由 NaNs 表示的特征缺失值,现在被按列预处理(如scalers)接受。每个特征都无需考虑缺失值,包含缺失值的数据也可以被转换。尽管缺少数据,新模块 impute 为学习提供了估算器。
2.ColumnTransformer 处理 Pandas 中不同特征或不同列的情况。DataFrame 需要不同的预处理。字符串或 Pandas 的 类别数据列都可以用 OneHotEncoder 或 OrdinalEncoder 进行编码。
3.TransformedTargetRegressor 可以帮助把回归目标转换为模型。PowerTransformer 和 KBinsDiscretizer 将加入 quantileTransformer 作为 非线性变换。
4.除此之外,还为几个估计器(KMeans、Bayesian ridge 和 KernelDensity)增加了支持样本权重的功能,并且改进了估计器( MLPRegressor, GradientBoostingRegressor 和 SGDRegressor)的停止标准。
5.伴随此版本还首次公开发布了由 Joel Nothman 开发的通用术语和 API 列表( Glossary of Common Terms and API Elements),旨在帮助用户和贡献者更熟悉 Scikit-learn 中的术语和资源。
除了这些亮点外,还修复了很多 models 和 bug,大家可以自行查看 Scikit-learn 0.20 更新说明。
Scikit-learn 0.20 新版本说明:
http://scikit-learn.org/dev/whats_new.html#version-0-20
核心术语表:
http://scikit-learn.org/dev/glossary.html#glossary
Scikit-learn 中文版本(还未更新至 0.20)
http://sklearn.apachecn.org/cn/0.19.0/
好啦~到这里大家就准备去更新你的 Scikit-learn 吧!在发布新版本之前我们就给大家预告过一个教程(Scikit-learn 中 合并 Pandas 后的新教程),这次大家可以在新版本中直接试验一下,有问题我们下面评论区再聊~
2018 AI开发者大会
◆
拒绝空谈,技术争鸣
◆
2018 AI开发者大会(AI NEXTCon)由中国IT社区CSDN与硅谷AI社区AICamp联合出品的AI技术与产业年度盛会。多年经验淬炼,如今蓄势待发:将有近百位中美顶尖AI专家、知名企业代表以及千余名AI开发者齐聚北京,进行技术解读和产业论证。我们只讲技术,拒绝空谈,诚挚邀请AI业内人士一起共铸人工智能新篇章!
2018 AI开发者大会首轮重磅嘉宾及深度议题现已火热出炉,扫码抢“鲜”看。国庆特惠,购票立享 5 折优惠!