查看原文
其他

记住,永远不要在MySQL中使用UTF-8

51CTO技术栈 2021-12-16

The following article is from 漫话编程 Author 漫话编程

曝光 MySQL 的一个坑:不要再使用 UTF-8 了,因为在 MySQL 的"utf8"实际上不是真正的 UTF-8。


图片来自 Pexels

MySQL 是一种关系型数据库,这个大家肯定都不陌生,使用 MySQL 创建数据库的时候,大家需要指定一种编码方式。


很多时候,大家基于自己对编码方式的了解,会认为 UTF-8 是一种通用的编码方式,所以大多数时候会默认选择这种编码方式。


但是,这往往会给你的数据库埋下一个大坑!!!

MySQL 对 Unicode 的支持


Unicode 字符集,他现在已经是计算机科学领域里的一项业界标准,它对世界上大部分的文字系统进行了整理、编码,使得计算机可以用更为简单的方式来呈现和处理文字。


为了适应不同的数据存储和传递需求,人们提出了 Unicode Transformation Format(UTF)系列编码。这其中包含 UTF-8、UTF-16、UTF-32 等。


通过查阅 MySQL 官方文档:
https://dev.mysql.com/doc/refman/8.0/en/charset-unicode.html

我们可以知道,在 MySQL 中,主要支持以下字符集:utf8、ucs2、utf8mb3、utf8mb4、utf16、utf16le 和 utf32。


不同的字符集的区别在于包含的字符情况以及存储需要的空间。

在 MySQL 官方文档中,介绍了支持的编码方式之后,还有一段醒目的提醒:

翻译过来是:utf8mb3 字符集已被弃用,它在未来的 MySQL 版本中将会被删除,请使用 utf8mb4 代替。


在目前的 8.0 版本中,utf8 指的就是 utf8mb3。


虽然未来可能改成 utf8mb4,但是为了避免产生歧义,可以考虑为字符集引用显式指定 utf8mb4,而不是 utf8。


也就是说,当我们在 MySQL 8.0 中指定字符编码方式为 UTF-8 的时候,其实使用的是 utf8mb3 这种编码方式。


那么,我们先来说说 utf8mb3。

utf8mb3


utf8mb3 字符集是 MySQL 早期就支持的字符集,他具有以下特征:

  • 仅支持 BMP 字符(不支持补充字符)

  • 每个多字节字符最多需要三个字节


注意,仅支持 BMP 字符,那么什么是 BMP 字符呢?


BMP 是 Basic Multilingual Plane 的缩写,即码位在 0 到 65535 之间(或者 U+0000 和 U+FFFF)的字符。


BMP 中并不包含补充字符,即码位在 U+10000 和 U+10FFFF 之间的的字符。


补充字符有哪些呢,如一些生僻的汉字,或者 Emoji 表情等都是补充字符。


也就是说,如果在建表的时候,指定的编码方式是 utf8mb3(utf-8),那么对于一些生僻字或者 emoji 表情都无法表示。

utf8mb4


早期的时候,Unicode 只用到了 0~0xFFFF 范围的数字编码,这就是 BMP 字符集。


所以,最初 MySQL 在设计之初,也就只涉及了包含 BMP 字符集的 utfmb3(utf-8)。


但是随着文字越来越多,3 个字节肯定无法全部表示,于是 Unicode 支持的字符就更多了。


所以,早期的 utfmb3 在有些场景中就不能满足需求了,于是,MySQL 在 5.5.3 之后增加了 utf8mb4 的编码。


utfmb4 字符集具有以下特征:

  • 支持 BMP 和补充字符。

  • 每个多字节字符最多需要 4 个字节。


utf8mb4 与 utf8mb3 字符集不同,utf8mb3 字符集只支持 BMP 字符,每个字符最多使用三个字节。


对于 BMP 字符,utf8mb4 和 utf8mb3 具有相同的存储特征,即相同的编码值,相同的编码,相同的长度。


对于补充字符,utf8mb4 需要 4 个字节来存储它,而 utf8mb3 根本不能存储该字符。所以我们说 utf8mb4 是 utf8mb3 的超集。


所以,很多时候,为了考虑到兼容性,建议创建 MySQL 表的时候,使用 utf8mb4,而不是 utf8!


utf8mb3 和 utf8mb4 区别及优缺点


前面分别介绍了 utf8mb3 和 utf8mb4 字符集。


他们的区别如下:

  • utf8mb3 只支持 BMP(Basic Multilingual Plane)的字符。utf8mb4 还支持 BMP 之外的补充字符。

  • utf8mb3 每个字符最多使用 3 个字节。Utf8mb4 每个字符最多使用 4 个字节。

  • utf8mb4 比 utf8mb3 来说,他能表示更多的补充字符,但是同时占用的空间可能会更大一些。

从 utf8mb3 转换成 utf8mb4


首先,想要把字符集从 utf8mb3 转换到 utf8mb4,其实是问题不大的。


对于 BMP 字符,utf8mb4 和 utf8mb3 具有相同的存储特征:相同的编码值,相同的编码,相同的长度。


对于补充字符,utf8mb4 需要 4 个字节来存储它,而 utf8mb3 根本不能存储该字符。


当将 utf8mb3 列转换为 utf8mb4 时,您不必担心转换补充字符,因为没有补充字符。


假设有一张已知表使用了 utf8mb3:
CREATE TABLE t1 (
  col1 CHAR(10CHARACTER SET utf8 COLLATE utf8_unicode_ci NOT NULL,
  col2 CHAR(10CHARACTER SET utf8 COLLATE utf8_bin NOT NULL
CHARACTER SET utf8;

下面的语句将 t1 转换为 utf8mb4:
ALTER TABLE t1
  DEFAULT CHARACTER SET utf8mb4,
  MODIFY col1 CHAR(10)
    CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,
  MODIFY col2 CHAR(10)
    CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;

作者:漫话编程

编辑:陶家龙

出处:转载自公众号漫话编程(ID:mhcoding)

精彩文章推荐:

求求你,别在MySQL中使用UTF-8了!入职第一天,MySQL就崩了...老板偷偷监控了我的微信聊天......
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存