MySQL 的 utf8 字符集的问题
理论上说起来,设置为 utf8 也并非一个完全合适、100% 没毛病的值,即便你将 MySQL 的字符集设置为 utf8 ,也有可能出现乱码!
通过以下命令,你可以查看 MySQL 所支持的所有『字符集』编码:
在显示的 Charset ,你会看见熟悉的 utf8 。
如果你再仔细看一下这一行,你会发现这一行的 Maxlen 列中的值居然是 3 !?
这是 MySQL 中的 utf8 并非我们现在常说的 『真·UTF8』 。它『 最多 』只用 3 个字节存储一个字符,而有些中日韩生僻字<small>(包括 emoji 表情)</small>的 Unicode 编码是需要 4 个字节宽度才能存储的,这就会导致一些乱码的隐患。
MySQL 解决这个问题的方案是绕过 utf8 提出一种新的字符集来实现 『 真·UTF8 』 功能: utf8mb4 。
实际上,为了统一称呼,MySQL 在提出 utf8mb4 字符集之后,就将 utf8 改为 utf8mb3 的别名,因此,你设置字符集为 utf8 本质上就是设置成了 utf8mb3 。
在更高版本(8.x)的 mysql 中,MySQL 直接将 utf8 改为了 utfmb4 的别名。