Pandas 1.0.0 发布

Original oschina 开源中国 2020-09-02

Pandas 1.0.0 发布了。Pandas 是一个强大的分析结构化数据的工具集；它的使用基础是 Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。

从 1.0.0 开始，Pandas 将采用 SemVer 的一种变体来发布版本，简单来讲，会依据以下几点规则：

下边看看几个新的实验性特性。

NA标量表示缺失值

引入了一个新值（单例）pd.NA来表示标量缺失值，它提供一个“缺失”指示器，该指示器可以在各种数据类型之间一致使用。pd.NA当前可为空的整数和布尔数据类型以及新的字符串数据类型使用。

专用字符串数据类型

添加StringDtype专用于字符串数据的扩展类型，以往字符串通常存储在 object-dtype NumPy 数组中。

缺少值的布尔数据类型支持

添加了BooleanDtype/ BooleanArray，这是专用于布尔数据的扩展类型，可以保留缺失值。默认 bool数据类型基于 bool-dtype NumPy 数组，只能保存 True或False，而不能是缺失值。

convert_dtypes简化使用支持扩展 dtypes 的方法

为了鼓励使用支持 pd.NA、扩展 dtypes 的StringDtype、 BooleanDtype、Int64Dtype、Int32Dtype等，引入了 DataFrame.convert_dtypes()与Series.convert_dtypes() 等方法。

完整的更新内容较多，可以查看发布说明：

https://pandas.pydata.org/pandas-docs/stable/whatsnew/v1.0.0.html