给妹子讲python-S01E08理清python中的字符编码方法
微信公众号: python数据科学家
知乎专栏: 《给妹子讲python》
https://zhuanlan.zhihu.com/c_147297848
前文传送门:
给妹子讲python-S01E07字符编码历史观:从ASCII到Unicode
【要点抢先看】
1.python中编、解码的本质是文本字符串和字节字符串的相互转换
2.python中编、解码方法举例及过程解析
3.unicode、latin-1、ASCII编码方式的兼容性问题
4.读取二进制文件
上一集讲清楚字符编码的基础概念后,我相信这一集再来介绍python中的字符编码就会容易的多。
通过上一集我们知道,ASCII码(包括其最常见的超集Latin-1)依赖这样的一个假设,即每一个字符与一个字节相匹配,由于存在太多的字符,因此不可避免的会出现问题,Unicode字符集通过使用4个字节来表示1个字符,则解决了该问题。
首先来介绍一下Python中的两种字符串:
Python中有两种字符串:文本字符串和字节字符串。其中文本字符串类型被命名为str,内部采用Unicode字符集(兼容ASCII码),而字节字符串则直接用来表示原始的字节序列(用print函数来打印字节字符串时,若字节在ascii码范围内,则显示为ascii码对应的字符,其余的则直接显示为16进制数),该类型被命名为bytes。
看一个简单的例子:
s = 'apple'
b = b'apple'
print(b)
print(type(b))
print(s)
print(type(s))
b'apple'
<class 'bytes'>
apple
<class 'str'>
再近距离的看看bytes类型字节字符串,本质上它就是一串单字节16进制数
b = b'apple'
print(b[0])
print(b[1:])
print(list(b))
97
b'pple'
[97, 112, 112, 108, 101]
【妹子说】那这和编码、解码有何关联呢?
从本质上来说,编码和解码就是str和bytes这两种字符串类型之间的互相转换。
str包含一个encode方法,使用特定编码将该字符串其转换为一个bytes,这称之为编码。bytes类包含了一个decode方法,也接受一个编码作为单个必要参数,并返回一个str,这称之为解码。这种转换操作是显式的操作,且必须根据数据被编码时采用的编码类型进行解码。
首先说说编码,即将unicode的str文本字符串转换为bytes的字节字符串,可以显式的传入指定编码(一般来说采用utf-8编码),或使用平台的默认编码。
s = 'π排球の'
b1 = s.encode('utf-8')
b2 = s.encode()
print(b1)
print(b2)
b'\xcf\x80\xe6\x8e\x92\xe7\x90\x83\xe3\x81\xae'
b'\xcf\x80\xe6\x8e\x92\xe7\x90\x83\xe3\x81\xae'
那么我们看看,在不写编码的时候,平台默认的编码方式到底是什么
import sys
print(sys.platform)
print(sys.getdefaultencoding())
win32
utf-8
可以看出我这个平台默认选择的是utf-8编码方式。
接下来我们来比较一下unicode、latin-1、ASCII编码方式的兼容性问题:
首先,非ASCII字符无法使用ASCII编码转换成字节字符串
s = 'π排球の'
b = s.encode('ascii')
Traceback (most recent call last):
File "E:/12homework/12homework.py", line 2, in <module>
b = s.encode('ascii')
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3:
ordinal not in range(128)
其次,Latin-1和unicode编码方式不兼容。
例如,重音字符会在latin-1字符集和unicode字符集中同时存在,但是通过latin-1和unicode编码方式编出来的字节流是不一样的,注意,虽然unicode字符集是包含了latin-1字符集,但是不代表utf-8编码方式兼容latin-1编码方式。因为unicode字符集中除了ascii字符集外,都是采用多字节的编码方式,而latin-1一律采用单字节的方式
s = 'Äè'
print(s.encode('utf-8'))
print(s.encode('latin-1'))
b'\xc3\x84\xc3\xa8'
b'\xc4\xe8'
只有ascii字符集中的字符,三种编码方式得到的结果才完全一致。对unicode进行编码的时候,针对常规的7位ASCII文本,由于utf-8以及latin-1编码方式都是兼容ASCII的,所以结果都是一样的。
s = 'abc'
print(s.encode('utf-8'))
print(s.encode('latin-1'))
print(s.encode('ascii'))
b'abc'
b'abc'
b'abc'
【妹子说】那对应的,再来谈谈decode解码方法吧。
将bytes类型字符串转换成str类型的unicode文本字符串也是一样,要么指定编码参数,要么使用平台的默认参数。这个例子中,我们要操作的字节字符串b是通过utf-8编码方式对文本字符串'π排球の'编码而形成的。
b = b'\xe6\x8e\x92\xe7\x90\x83'
s1 = b.decode(encoding='utf-8')
s2 = b.decode()
s3 = b.decode(encoding='latin-1')
print(s1)
print(s2)
print(s3)
排球
排球
排çƒ
值得注意的是,最后一行代码想通过latin-1解码字节字符串,由于字节字符串是通过utf-8编码形成,因此这样解码形成得到的只能是乱码。
Utf-8编码是用两个字节来表示非ASCII的高128字符,而latin-1则是用一个字节来一一对应
【妹子说】计算机用二进制来存储信息,而却能在各种应用中显示我们需要的文字,这应该是字符编、解码的应用吧。
很对,下面我们来说说文本文件读取时的编、解码问题
当一个文件以文本模式打开的时候,被读取的二进制存储数据(也就是存储的字节字符串)会自动被解码(依据显式提供的编码名称或平台默认的编码名称),并且将其返回为一个str。写入文件时,会接受一个str,并且将其传输到文件之前自动编码成字节字符串以供磁盘存储。
当一个文件以二进制模式打开时,需要在open方法的模式字符串参数里添加一个b,此时读取的数据不会以任何方式解码,而是直接返回其原始内容,即一个bytes对象;写入文件时,接受一个bytes对象,并且将其传送到文件中且不进行修改。
在读取文本文件的时候,如果open函数没有声明他们如何编码,python3会因其所运行的系统而选取默认的编码方式,默认情况下,python3 期望文件使用 utf-8进行编码。但由于文件并不总是在同一个系统中被保存和打开,因此会带来乱码的风险,所以我们需要显式的指定编码。
补充的说明一下,可以很简单的进行一个分类:处理图像文件、设备数据流等,可以使用bytes和二进制模式文件处理;而如果要处理的内容实质是文本的内容,例如程序输出、HTML、国际化文本或CSV或XML文件,则可能要使用str和文本模式文件
例如,我们先把AÄBèC用UTF-8编码后存入utf-8data文件,再来读取他,具体看看这里是如何实现的。
s = 'AÄBèC'
with open('utf-8data','w',encoding='utf-8') as f:
f.write(s)
with open('utf-8data','r',encoding='utf-8') as f:
u_str = f.read()
print(u_str)
AÄBèC
这里用到的文件读写的方法后面的章节会详细介绍,现在知道他是什么就好了。
以二进制的形式读取文件。
还有一种我们之前介绍过的用法,文本字符串在存储到磁盘的时候会编码成字节字符,因此我们也可以先以字节字符串的形式从文件中将其读取,然后再进行解码。
这样做的原因有二,一种是所接收的可能是非文本数据,如一个图像文件;另一个潜在原因是无法确定所读取文本文件的编码,可能需要依据其他信息再确定:
with open('utf-8data', 'rb') as f:
byte_str = f.read()
print(byte_str)
print(byte_str.decode(encoding='utf-8'))
b'A\xc3\x84B\xc3\xa8C'
AÄBèC
字符串编、解码在python中很重要,特别是在网络爬虫等网络应用程序中,在后面的实际应用中会感受到他的作用会越来越明显。
【妹子说】这一集的内容很多,细致剖析了python中的两种字符串类型和编、解码的处理方法。再结合之前的三集,就能从基本使用、字符编、解码的维度闭环出一个完整的知识网络了,收获很大。
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
小编的Python入门免费视频课程!!!
【最新免费微课】小编的Python快速上手matplotlib可视化库!!!
崔老师爬虫实战案例免费学习视频。
陈老师数据分析报告制作免费学习视频。
玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。