搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏码云1024
字符编码
UCS-2用两个字节编码，UCS-4用4个字节编码。在 UNICODE 被采用之后，计算机存放字符串时，改为存放每个字符在 UNICODE 字符集中的序号。 4、常用编码规则 4.1 单字节字符编码（1）编码标准：ISO-8859-1。（2）说明：最简单的编码规则，每一个字节直接作为一个 UNICODE 字符。反之，将字节串转化成字符串时，也可能多个字节转化成一个字符。比如，[0xD6, 0xD0] 这两个字节，通过 GB2312 转化为字符串时，将得到 [0x4E2D] 一个字符，即 '中' 字。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？ little endian. 00 00 FE FF　　UTF-32/UCS-4, big-endia （2）采取一种比较安全的方式来决定字符集及其编码，那就是弹出一个对话框来请示用户。
2.8K40发布于 2018-09-28
来自专栏明明如月的技术专栏
字符编码
字符编码知识：Unicode、UTF-8、ASCII、GB2312等编码之间是如何转换的？字符编码是计算机技术的基石，想要熟练使用计算机，就必须懂得字符编码的知识。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。 2）Unicode：编码是四个字节“FF FE 25 4E”，其中“FF FE”表明是小头方式存储，真正的编码是4E25。 4）UTF-8：编码是六个字节“EF BB BF E4 B8 A5”，前三个字节“EF BB BF”表示这是UTF-8编码，后三个“E4B8A5”就是“严”的具体编码，它的存储顺序与编码顺序是一致的。这样理解简单些，其实中间还要转换成同一字符对应的系统内部使用的 Unicode 编码，然后通过系统底层unicode编码还原成相应字符显示出来。
2K20发布于 2021-08-27
来自专栏python3
字符编码
字符编码计算机基础 ? 文本编辑器存取文件的原理 1.打开编辑器就打开启动了一个进程，是在内存中，所以，用编码器编写的内容也都存放在内存中的，断电后数据丢失。 3.早我们编写一个py文件，跟便携其它文件一样，都是一堆字符 python解释器执行py文件的原理第一阶段：Python解释器启动，此时就相当于启动了一个文本编辑器第二阶段：Python解释器相当于文本编辑器第三阶段：Python解释器解释执行刚刚加载到内存中test.py的代码( ps：在该阶段，即真正执行代码时，才会识别Python的语法，执行文件内代码，当执行到name="egon"时,会开辟内存空间存放字符串字符编码字符编码是将人类的字符编码成计算机能识别的数字，这种转换必须遵循一套固定的标准，该标准无非是人类字符与数字的对应关系，称之为字符编码表。字符编码发生在哪三个阶段 1存内存到硬盘 2取硬盘到内存 3python3解释器解释乱码分析存的时候用什么编码，取的时候用什么编码
1.6K10发布于 2020-01-15
来自专栏_春华秋实
字符，字符集，字符编码
Unicode比较特殊，具有UCS-4、UTF-8、UTF-16、UTF-32等编码。比如下图为GBK的编码空间，GBK/1、GBK/2是GB2312的区域，GBK/3、GBK/4、GBK/5是GBK的区域，红色是用户自定义区域，白色可能就是由于变长编码损失的区域了。 ? 一开始UCS用2个字节表示，叫做UCS-2，后来2个字节不够用，于是就用4个字节，叫做UCS-4。但是如果每一个字符都用4个字节来表示的话，相较之前的编码会浪费很多存储空间，尤其是相对ASCII等单字节编码会非常吃亏。并且当时已经有些厂商在双字节编码上投入了很大的精力。于是UTF-16就被作为一种折中的方案提了出来，既保持了两字节不变，又保证了足够的编码空间。而UTF-32是与UCS-4相对应的，UTF-8则由于扩展性比较强，从容应对了UCS-2到UCS-4的改变。
2.1K30发布于 2019-02-22
来自专栏浪淘沙
Python学习总结4--字符串和编码
一、编码历史由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母二、python的字符串对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符 >>> ord('A') 65 >>> chr(66) 以Unicode表示的str通过encode()方法可以编码为指定的bytes >>> 'ABC'.encode('ascii') b'ABC' 4. 要把bytes变为str，就需要用decode()方法： >>> b'\xe4\xb8\xad\xff'.decode('utf-8') Traceback (most recent call last): 如果bytes中只有一小部分无效的字节，可以传入errors=’ignore’忽略错误的字节： >>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors
58140发布于 2018-10-18
来自专栏PHP在线
字符编码笔记
字符编码笔记：ASCII，Unicode和 UTF-8 1. ASCII码我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。 2）Unicode编码指的是UCS-2编码方式，即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。 Unicode规范中定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫做”零宽度非换行空格“（ZERO WIDTH NO-BREAK SPACE），用FEFF表示。 4）UTF-8：编码是六个字节“EF BB BF E4 B8 A5”，前三个字节“EF BB BF”表示这是UTF-8编码，后三个“E4B8A5”就是“严”的具体编码，它的存储顺序与编码顺序是一致的。
1.7K90发布于 2018-03-07
来自专栏01ZOO
字符编码实战
它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码，属于Unicode标准的一部。根本原因是 python2 的字符串是 ASCII 编码的，也就是说 python 中的一个 string，它只能表示一个 ASCII 编码的字符串，如果要表示 unicode 字符串怎么办呢，python2 MySQL 一直没有修复这个问题，在 2010 年发布了一个叫作 "utf8mb4" 的字符集，绕过了这个问题。举个例子，的unicode编码为 U+1F601, utf8 表示为 f09f9881，占用了 4个字节。对于这个表情符号 mysql 就不能存储。这也是为什么，对于现代程序，我们应该尽量把默认字符编码设置成 utf8mb4 的原因。另外，对于已经是 utf8 的数据库了，已经存储了大量数据，更改字符集已经不太现实了，这时候可以怎么办呢。
2.3K70发布于 2021-03-07
关于字符编码
##关于字符编码内容涉及：UTF-8编码UTF-16编码你好UTF8编码：E4 BD A0 E5 A5 BD计算UTF-16编码得到：UTF16编码: 4F 60https://home.unicode.org /Unicode，统一码、万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。 Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。后来又出现了4字节编码，即UCS-4UCS在计算机中的存储格式叫做UTF(Unicode Transformation Format)UCS-2最直接的存储格式就是UTF-16了。由于UCS-2没有定义FFFE，因此规定只要出现FFFE就是UTF-16LE，出现FEFF就是UTF-16BEUTF-32就简单了，它用四个字节表示字符，这样就可以完全表示UCS-4，而无需像UTF-
59110编辑于 2024-06-25
来自专栏Crossin的编程教室
判断字符编码
今天本来打算讲点新课的，后来有些事耽搁，也没时间准备了，就分享一个小工具吧： python里面的字符编码是让人头大的一个东西，甚至很多时候你都不知道现在拿到的文本到底是什么编码。这时候，chardet可以帮你判断编码。chardet是python的第三方扩展，用来检测字符串或文件的编码。使用中，你有一个待检测的字符串s，只需： import chardet print chardet.detect(s) 就可以看到输出结果： {'confidence': 0.98999999999999999 , 'encoding': 'GB2312'} confidence是预测这种编码的可能性，encoding是编码名称。
2.2K50发布于 2018-04-16
来自专栏python3
python字符编码
近期接触到python的编码相关的东西，发现自己了解的不是太系统，故通过搜索资料做了一些总结。字符编码字符串也是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。字母A: 用ASCII编码是十进制的65，二进制的01000001；字符0: 用ASCII编码是十进制的48，二进制的00110000，注意字符'0'和整数0是不同的；汉字中: 已经超出了ASCII UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。严的 Unicode 是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是
2.1K20发布于 2020-01-13
来自专栏雨临Lewis的博客
Java - 字符编码
字符编码其实就是对Unicode字符集的实现方式，用以约定如何用1~4个字节来存储字符。字符编码 UTF-8 UTF-8是可变长编码，即多字节编码，在存储不同的字符时使用的字节数量是不同的。不同字符集编码的英文字母和中文汉字的字节数英文字母： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 编码：GB2312；字节数 : 1 编码：GBK；字节数 : 1 编码：GB18030；字节数 : 1 编码：ISO-8859-1；字节数 : 1 编码：UTF-8；字节数 : 1 编码：UTF-16；字节数 : 4 编码：UTF-16BE；字节数 : 2 编码：UTF-16LE；字节数 : 2 中文汉字： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 编码：GB2312；字节数 : 2 编码：GBK ；字节数 : 2 编码：GB18030；字节数 : 2 编码：ISO-8859-1；字节数 : 1 编码：UTF-8；字节数 : 3 编码：UTF-16；字节数 : 4 编码：UTF-16BE
2.4K10编辑于 2022-02-14
来自专栏python3
字符编码简介
Unicode 　　Unicode（统一码、万国码、单一码），用两个字节表示一个字符，1994年正式公布。原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。 Unicode把所有语言都统一到一套编码里，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。因为Python的诞生比Unicode标准发布的时间还要早，所以最早的Python只支持ASCII编码，普通的字符串'ABC'在Python内部都是ASCII编码的。现在Python支持Unicode编码了 UTF-8 　　UTF-8是一种针对Unicode的可变长度字符编码，又称万国码，由Ken Thompson于1992年创建。 UTF-8用1到6个字节编码Unicode字符。ASCII字符在utf-8编码格式中占用一个字节，汉子则占用三个字节。
1.6K20发布于 2020-01-19
来自专栏wOw的Android小站
聊聊字符编码
ASCII编码学编程的时候,ASCII是最早介绍的字符编码. 标准ASCII使用7位二进制数,因为一个字节占8位,所以在第一位补0形成8位. 对照ASCII码,7位一共128个字符,231明显超过了128,所以对于ASCII编码来说,它并不认识0xe7. 这也说明了一个问题,由于ASCII编码长度很短,可以表示的字符有限,遇到中文或者其他字符,就需要其他编码来表示. 主要聊聊常见的UTF-8 UTF-8规则: 如果字符只有一个字节则其最高二进制位为0,后7位是字符的Unicode码.单字节的编码和ASCII一致对于N字节(N>1),第一个字节前N位设为1,第N+1 位为0，其余各字节均以10开头2字节: 110xxxxx 10xxxxxx 3字节: 1110xxxx 10xxxxxx 10xxxxxx 4字节: 11110xxx 10xxxxxx 10xxxxxx
1.5K20发布于 2018-09-18
来自专栏这里只有VxWorks
关于字符编码
所以需要某种多字节编码方案 GB 2312-80 是1980年制定的中国汉字编码国家标准。共收录 7445 个字符。信息技术中文编码字符集》，是中华人民共和国现时最新的内码字集。 GB 18030采用多字节编码，每个字可以由 1 个、2 个或 4 个字节组成。编码空间庞大，最多可定义 161 万个字符。支持少数民族的文字、繁体汉字以及日韩字。 Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。后来又出现了4字节编码，即UCS-4 UCS在计算机中的存储格式叫做UTF(Unicode Transformation Format) UCS-2最直接的存储格式就是UTF-16了。
1.3K20发布于 2021-12-02
来自专栏老齐教室
字符编码简介
在互联网广泛使用之前，电报曾是一种重要的长途通讯方式，它能将字符转化为电信号，例如著名的摩尔斯电码（Morse code）中用点（·）和划（-）对字符编码，如表4-1-1所示，即为对英文字母的编码。表4-1-1 英文字母和摩尔斯电码字符代码字符代码字符代码字符代码字符代码字符代码字符代码 A ·- B -··· C -·-· D -·· E · F ··-· G --· 编码字符集。 Unicode 包括视觉上的字形、编码方法、标准的字符编码、字符特性（大小写字母）。也不用担心这种编码方式无法涵盖其他语言或者符号，因为 Unicode 还保留了大量空间以作为将来扩展，并且未来的版本会涵盖 UCS-4（通用字符集的一个版本）的所有字符，届时理论上能表示个字符，
2.4K50发布于 2021-05-20
来自专栏zhangdd.com
mysql设置utf8mb4字符编码
1.查看编码 #显示所有编码和字符校对的参数 SHOW VARIABLES WHERE Variable_name LIKE 'character_set_%' OR Variable_name LIKE character_set_server 下列三个系统变量我们不需要关心，不会影响乱码等问题 character_set_filesystem character_set_system character_sets_dir 2、修改编码为 utf8mb4 修改my.cnf文件。 =utf8mb4 [client] default-character-set=utf8mb4 3.已有的库和表更改为utf8mb4 SELECT CONCAT( 'ALTER TABLE `', TABLE_NAME , '` CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;' ) AS mySQL FROM INFORMATION_SCHEMA
1.9K10发布于 2020-01-02
来自专栏程序生涯
字符集和字符编码
4、细化 - UTF-8 首先我们要明确 UTF-8（8-bit Unicode Transformation Format）是在统一码（Unicode）基础上细化并优化后的一种长度可变的字符编码方式， UTF-8 可以使用1到4个字节来表示字符，它通过自身的规则能够灵活地变化长度来存储 Unicode 字符。这里的高位低位说的也是"大头方式"（Big endian）和"小头方式"（Little endian），以汉字"严"为例，Unicode码是4E25，需要用两个字节存储，一个字节是4E，另一个字节是25 存储的时候，4E在前，25在后，就是Big endian方式；25在前，4E在后，就是Little endian方式。因此如果你的PHP文件是采用带BOM标记的UTF-8进行编码的，那么有可能会出现问题。 6.8 Unicode编码和以前的字符集编码有什么区别？早期字符编码、字符集和代码页等概念都是表达同一个意思。
1.5K40发布于 2020-08-14
来自专栏编程之路的专栏
字符编码的前世今生——一文读懂字符编码
计算机的字符编码现在回到计算机世界的字符编码问题，要弄清楚计算机字符编码问题，咱们还得继续讲故事。 2个不够用的时候就用4个字节。 UTF-32 顾名思义，就是固定使用4个字节32位来表示Unicode码，当然，它在USC中的另一个名字就是USC-4。说实话，这种编码很难流行，因为它同样不兼容ASCII 码，更过分的是它用4个字节去存ASCII字符，比UTF-16更甚，彻底受到欧美人的唾弃！ UTF-8是一种变长编码，它跟上面两种的区别就是，它存储字符的大小是不固定的，它使用1~4个字节大小来存一个字符，它可以完全兼容ASCII码的。
2.9K40发布于 2019-06-26
来自专栏Michael阿明学习之路
字符串的编码与解码（4位16进制字符+字符串）
题目请你设计一个算法，可以将一个字符串列表编码成为一个字符串。这个编码后的字符串是可以通过网络进行高效传送的，并且可以在接收端被解码回原来的字符串列表。注意：因为字符串可能会包含 256 个合法 ascii 字符中的任何字符，所以您的算法必须要能够处理任何可能会出现的字符。请勿使用 “类成员”、“全局变量” 或 “静态变量” 来存储这些状态，您的编码和解码算法应该是非状态依赖的。请不要依赖任何方法库，例如 eval 又或者是 serialize 之类的方法。本题的宗旨是需要您自己实现 “编码” 和 “解码” 算法。解题每个字符串前面加上该字符串的长度信息（转成4位16进制字符） class Codec { public: // Encodes a list of strings to a single
1.5K10发布于 2021-02-19
来自专栏用户4352451的专栏
字符，字符串，字符编码的区别
字符，字符串，字符编码概念字符是一个信息单位，在计算机里面，一个中文汉字是一个字符，一个英文字母是一个字符，一个阿拉伯数字是一个字符，一个标点符号也是一个字符。字符集是字符组成的集合，通常以二维表的形式存在，二维表的内容和大小是由使用者的语言而定，是英语，是汉语，还是阿拉伯语。字符编码是把字符集中的字符编码为特定的二进制数，以便在计算机中存储。字符集和字符编码一般都是成对出现的，如ASCII、IOS-8859-1、GB2312、GBK，都是即表示了字符集又表示了对应的字符编码，以后统称为编码。一个字符有多少个字节 GBK编码，一个汉字占两个字节。 UTF-8编码是变长编码，通常汉字占三个字节，扩展B区以后的汉字占四个字节。小提示：mysql varchar（20）5.0版本后这个20代表的是20个字符。
1.7K20发布于 2020-08-26

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

字符编码

字符编码

字符编码

字符，字符集，字符编码

Python学习总结4--字符串和编码

字符编码笔记

字符编码实战

关于字符编码

判断字符编码

python字符编码

Java - 字符编码

字符编码简介

聊聊字符编码

关于字符编码

字符编码简介

mysql设置utf8mb4字符编码

字符集和字符编码

字符编码的前世今生——一文读懂字符编码

字符串的编码与解码（4位16进制字符+字符串）

字符，字符串，字符编码的区别

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐