在mysql中,utf8mb4_0900_ai_ci和utf8_unicode_ci数据库文本编码有什么不同(特别是在性能方面)?
更新:
utf8mb4_unicode_ci和utf8mb4_0900_ai_ci之间有相似的区别吗?
发布于 2019-03-07 00:16:16
utf8_unicode_ci表示CHARACTER SET utf8,它只包含1字节、2字节和3字节的UTF8字符。因此,它排除了大部分Emoji和一些中文字符。
utf8mb4_unicode_ci意味着CHARACTER SET utf8mb4是对应于4字节CHARACTER SET utf8mb4的COLLATION。
Unicode组织多年来一直在改进该规范。下面是从其“版本”到MySQL排序规则的映射:
4.0 _unicode_
5.20 _unicode_520_
9.0 _0900_大多数差异将出现在大多数人从未遇到过的领域。一个例子:在某种程度上,一个变化允许以某种方式区分和排序Emoji。
后缀(MySQL doc):
_bin -- just compare the bits; don't consider case folding, accents, etc
_ci -- explicitly case insensitive (A=a) and implicitly accent insensitive (a=á)
_ai_ci -- explicitly case insensitive and accent insensitive
_as (etc) -- accent-sensitive (etc)性能:
_bin -- simple, fast
_general_ci -- fails to compare multiple letters; eg ss=ß, so somewhat fast
... -- slower
_900_ -- (8.0) much faster because of a rewrite但是:排序的速度通常是查询中最小的性能问题。INDEXes、JOINs、子查询、表扫描等对性能更为关键。
https://stackoverflow.com/questions/54885178
复制相似问题