numpy进阶之 Structured Array和Record Array

Original 勇敢AI 机器学习与python集中营 2021-09-10

资料下载：

学python不用报培训班，进公众号获取免费的资源就够了！

更有海量程序设计电子书免费分享

一、什么是结构化数组——structured array

“结构化数组”这一称呼来源于C语言，在C语言中，如果我们需要创建一个“ 学生 ”的数组，每一个学生包括姓名、年龄、性别、体重四个信息，我们需要先构造一个结构体，然后使用结构体数组。得到的数组的形式如下所示：

	name	age	weight
0	张三	22	68
1	李四	27	56
2	王五	25	62

当然，这样的数组我们要使用面向对象的编程语言去实现，再简单不过了，但是这样的数组我们在numpy里面该怎么实现呢？

二、numpy创建数组的方式

比如有一个numpy数组

a=np.array([1,2,3,4,5],dtype=np.int32) #创建数组时，每一个元素的“ 类型 ”都是相同的，

也就是说，如果要创建类似于上面的“ 结构体数组 ”，第一件事情是需要定义一个 全新的dtype。参见下面的代码：

import numpy as np
student_type={'names':('name', 'age', 'sex','weight'), 'formats':('U10', 'i4','U6', 'f8')}
students=np.array([('袁菲',25,'女',55),('张三',22,'女',65),('李四',28,'男',70),('赵二',21,'女',49),('王五',29,'男',85)],dtype=student_type)
print(students)
print(students.shape)  #数组形状
print(students.dtype)  #数组元素类型
print('========================================================================')
row1=students[0]       #返回某一行，依然使用索引index
print(row1)
name=students['name']  #返回某一列，
print(name)
sex=students['sex']
print(sex)
print('========================================================================')
element=students[1]['age'] #返回某一行的某一列，即返回某一个 单元格 元素，等价于students[1][1]
print(element)

上面程序的运行结果为：

[('袁菲', 25, '女', 55.) ('张三', 22, '女', 65.) ('李四', 28, '男', 70.) ('赵二', 21, '女', 49.) ('王五', 29, '男', 85.)]

(5,)

[('name', '<U10'), ('age', '<i4'), ('sex', '<U6'), ('weight', '<f8')]

======================================================

('袁菲', 25, '女', 55.)

['袁菲' '张三' '李四' '赵二' '王五']

['女' '女' '男' '女' '男']

======================================================

总结：从上面的例子可以看出，numpy的结构化数组有点类似于pandas的使用，如果熟悉pandas的dataframe结构，就很简单了，但也有区别，比如我们不能通过这样的方式同时访问多个列：

name=students['name','weight'] #会显示错误

columns=students[['name','weight']] #这样就正确了，这是需要注意的点

三、核心——如何创建自定义的dtype

创建结构体数组的关键和核心在于如何创建dtype，主要由以下几种创建方式：参考以下链接

https://docs.scipy.org/doc/numpy-1.13.0/user/basics.rec.html

注意：

（1）很多人不理解代码中的 ‘U10’ ‘i4’ ‘f8’ 是什么意思，其实它们代表的就是固定长度的string、int4、float8,我们也可以直接使用 'U10' ‘int' 'float' 代替，但是U10，不能直接使用str或者是string，具体原因我还没太弄清楚。

（2）np.dtype的本质上是一个类，我们可以使用help（np.dtype) 和 dir(np.dtype) 查看dtype类型的详细信息。

class dtype(builtins.object) # 这就是dtype的定义

dir(np.dtype)

['alignment', 'base', 'byteorder', 'char', 'descr', 'fields', 'flags', 'hasobject', 'isalignedstruct', 'isbuiltin', 'isnative', 'itemsize', 'kind', 'metadata', 'name', 'names', 'ndim', 'newbyteorder', 'num', 'shape', 'str', 'subdtype', 'type']

上面是dtype的部分属性，没有完全列出来。

创建dtype的几种方式：字符串、列表、元组、字典

（1）方法一：使用字符串创建dtype类型

mytype='int,float,int'

s=np.zeros(5,dtype=mytype) #等价于s=np.zeros(5,dtype='int,float,int')

运行的结果是包含5个元素的结构体数组，这里结构体元素都是以单一的数字，我们还可以给结构体元素指定特定的形状，如下代码：

x = np.zeros(3, dtype='3int8, float32, (2,3)float64')
# 3int8 表示的是结构体的第一个元素是包含 3 个int元素的
# float 就表示第二个元素只是单纯的一个float值
# (2,3)float64 表示的是第三个元素是（2，3）的形状的 float元素

运行结果为：

array([([0, 0, 0], 0.0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0]]),

([0, 0, 0], 0.0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0]]),

([0, 0, 0], 0.0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0]])], dtype=[('f0', '|i1', 3), ('f1', '>f4'), ('f2', '>f8', (2, 3))])

总结：字符串创建自定义的“ 结构体元素 ”的方式为 ‘（形状）类型一，（形状）类型二，（形状）类型三’ 的形式，而常见的一些类型可以如下一些形式：

b1, i1, i2, i4, i8, u1, u2, u4, u8, f2, f4, f8, c8, c16, a<n> 或者是下面的也可以

int8,...,uint8,...,float16, float32, float64, complex64, complex128

（2）方法二：使用元组创建dtype类型

这里暂时不做讨论，可参考前面的链接

（3）方法三：使用列表创建dtype类型

代码如下：

x = np.zeros(5, dtype=[('age','int'), ('height','i8'), ('weight',np.float), ('width','float',(2,3))])
# 第一个字段为age ，可以直接使用 int、float等等
# 第二个参数为height ，可以使用 i4、i8、f8等形式的参数
# 第三个参数为weight ，可以使用np的定义的类型
# 第四个参数为width ，还可以给参数指定形状（2，3）

运行结果为：

[(0, 0, 0., [[0., 0., 0.], [0., 0., 0.]])

(0, 0, 0., [[0., 0., 0.], [0., 0., 0.]])

(0, 0, 0., [[0., 0., 0.], [0., 0., 0.]])] #第四个元素为（2，3）的形状

总结：使用列表定义dtype的一般格式为：

[ (' 字段一 ‘，’类型一‘，（形状一）),(' 字段二 ‘，’类型二，（形状二）),(' 字段三 ‘，’类型三‘，（形状三）)]

（4）方法四：使用字典创建dtype类型

student_type={'names':('name', 'age', 'sex','weight'), 'formats':('U10', 'i4','U6', 'f8')}
通过指定字典的 names和formats 去实现。

四、dtype类型的相关操作

前面说过了，dtype本质上是一个类，因此有许多的属性可以访问和操作的

1、访问和修改字段名称——names属性

print(x.dtype.names) #访问

x.dtype.names=('age','height','weight','width') #修改字段名称

2、一次访问多个列

x[['col1','col2','col3']] #使用两个中括号

五、记录数组——record array

所谓的“ 记录数组 ”本质上和结构体数组没有太大的区别，它们所使用的场景也是类似的，只不过在元素的访问方式上面有所区别而已，

比如

students['age']

students[1]['age'] #都是通过“ 类似索引 ”的方式去获得数据的字段列的，这是“ 结构化数组 ”的实现方式

students.age

students[1].age #这是类似于“ 属性 ”的方式去获取十足的字段，这就是“ 记录数组 ”的实现方式

1、结构数组的创建

（1）直接使用 numpy.rec.array()创建，代码如下：

student_type={'names':('name', 'age', 'sex','weight'), 'formats':('U10', 'int','U10', 'float')}
students=np.rec.array([('袁菲',25,'女',55),('张三',22,'女',65),('李四',28,'男',70),('赵二',21,'女',49),('王五',29,'男',85)],dtype=student_type)
print(students.name)    #返回['袁菲' '张三' '李四' '赵二' '王五']
print(students[2].sex)  #返回 男

（2）将“ 结构体数组” 转化成“ 记录数组 ”，代码如下：

student_type={'names':('name', 'age', 'sex','weight'), 'formats':('U10', 'int','U10', 'float')}
students=np.array([('袁菲',25,'女',55),('张三',22,'女',65),('李四',28,'男',70),('赵二',21,'女',49),('王五',29,'男',85)],dtype=student_type)
s_record=students.view(np.recarray)  #将结构体数组转化成记录数组
print(s_record.name)
print(s_record[2].sex)

看完上面的教程是不是对numpy的 “结构化数组——structured array“和”记录数组——record array“有进一步的了解呢？

扫描上面的二维码可以添加我的个人微信号，您有什么问题或建议、合作都可以向我反馈，您的建议对于我来说至关重要！

记录生活的非技术公众号，也非常欢迎您的加入，我们一起“侃”世界

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

河北美院数亿巨债风波：“校长担保”学校埋单，祸起家族式管理？

跟着总书记的考察足迹｜瞰孝感

numpy进阶之 Structured Array和Record Array

一、什么是结构化数组——structured array

二、numpy创建数组的方式

三、核心——如何创建自定义的dtype

四、dtype类型的相关操作

五、记录数组——record array

您可能也对以下帖子感兴趣

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

河北美院数亿巨债风波：“校长担保”学校埋单，祸起家族式管理？

跟着总书记的考察足迹｜瞰孝感

生成图片，分享到微信朋友圈

numpy进阶之 Structured Array和Record Array

一、什么是结构化数组——structured array

二、numpy创建数组的方式

三、核心——如何创建自定义的dtype

四、dtype类型的相关操作

五、记录数组——record array

您可能也对以下帖子感兴趣