我正在使用ASP.net开发一个网站,我的数据库是MYSQL。在那里,用户可以提交文章。这个网站是国际的,所以我不想限制语言只限于英语。
所以我没做什么决定。如果我做错了选择,请指导我。
1)选择utf8mb4作为数据库字符集。因为它是UTF8的一个改进版本,用于存储进一步的字符。我做出了正确的选择吗?我的意思是,我只有几个需要使用utf8mb4的表。那么,我应该使用Latin1作为数据库字符集吗?
2)我不知道上面的字符集用哪种校对。我决定使用utf8mb4 swedish_ci。或者我应该用一般的Ci或者其他什么的?
3)在我的表中,大多数表不需要utf8mb4字符集。拉丁文1扫将做这项工作。因此,我是否可以在特定字符集和排序规则下维护选定的表,甚至DB也在另一个字符集和排序规则中?
4)我是否可以对表中的特定列使用utf8mb4字符集,该表中的字符集使用Latin1扫频?
如果它们可以执行,那么数据库字符集、表字符集和列字符集之间的关系是什么?
不同的字符集会导致性能问题吗?
非常感谢。
发布于 2015-02-23 23:38:01
数据库字符集由表继承,除非您重写它。(我建议在表格级别上具体说明。)
表字符集由表中的列继承。因为一个人通常只有一个字符集,所以这个继承是可以的。而且,很明显,当您执行SHOW CREATE TABLE时,每一列的设置都是什么--而不必查看数据库或系统。
到国际去--使用utf8或utf8mb4。我同意utf8mb4是一个更好的选择,特别是对于中国人和一些表情符号。
character_set_% --只有_client、_connection和_results是重要的。这三个是由SET NAMES utf8mb4设定的。剩下的就别管了。
utf8mb4的默认排序规则是utf8mb4_general_ci,如果您有多种语言,这可能是一个很好的选择。另一个选择是utf8mb4_unicode_ci。我将更多地讨论diacriticals中的“合并直链”。本节给出了这两种排序规则不同之处的示例:examples
另见“最佳做法”一节。
对于西欧文本,latin1小于utf8。MySQL将在需要时进行适当的转换,所以这不是一个问题。但是我不喜欢通过混合字符集来混淆程序员。请记住,将现有表列从latin1转换为utf8需要付出一定的努力、可能的停机时间以及可能的风险。
4)我是否可以对表中的特定列使用utf8mb4字符集,该表中的字符集使用Latin1扫频?
是。每一列(但不是每一行)都可以有不同的字符集和/或排序规则。
不同字符集的存在本身并不是一种表现。当两列具有不同的字符集和/或排序规则时,WHERE col1 = col2 (和其他情况)可能会对您造成影响。如果MySQL看到一个不容易处理的差异,它将放弃一个本来非常好的索引。
https://stackoverflow.com/questions/28512678
复制相似问题