首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于检测UTF-8的宏

用于检测UTF-8的宏
EN

Code Review用户
提问于 2013-10-11 11:15:53
回答 2查看 292关注 0票数 4

我正在编写一个处理UTF-8字符的程序。我做了以下宏来检测UTF-8。我用几千个单词测试过它们,它们似乎很有效。

稍后我会添加另一个来进行错误检查,但是现在我想知道我犯了哪些错误,以及如何改进这些宏。

代码语言:javascript
复制
//check if value is in range of leading byte
#define IS_UTF8_LEADING_BYTE(b) (((unsigned char)(b) >= 192) && (unsigned char)(b) < 248)

//check if value is in range of sequence byte
#define IS_UTF8_SEQUENCE_BYTE(b) ((unsigned char)(b) >= 128 && (unsigned char)(b) < 192)

//can be any utf8 byte, first, last...
#define IS_UTF8_BYTE(b) (IS_UTF8_LEADING_BYTE(b) || IS_UTF8_SEQUENCE_BYTE(b))

//no error checking, it must be used only on leading byte
#define HOW_MANY_UTF8_SEQUENCE_BYTES(b) ((((unsigned char)(b) & 64) == 64) + (((unsigned char)(b) & 32) == 32) + (((unsigned char)(b) & 16) == 16)) 
EN

回答 2

Code Review用户

回答已采纳

发布于 2013-10-11 11:29:01

如果您确信只有有效的编码UTF8,则可以简化

代码语言:javascript
复制
#define IS_UTF8_BYTE(b) (IS_UTF8_LEADING_BYTE(b) || IS_UTF8_SEQUENCE_BYTE(b))

代码语言:javascript
复制
#define IS_UTF8_BYTE(b) ((unsigned char)(b) >= 128)

因为每个不是ASCII的字节都必须是一个UTF8 8字节.

票数 1
EN

Code Review用户

发布于 2014-04-11 18:03:46

有很多神奇的数字。这些数字对任何优秀的程序员来说都是熟悉的,但还是神奇的数字。此外,使用按位操作来思考这个问题更为有用,因为它们与UTF-8背后的概念设计有着更密切的联系。

您只接受两字节、三字节和四字节的序列,即只接受U+0080到U+1FFFFF的代码点,即基本的多语言平面(减去ASCII集)加上补充的多语言平面。应在评论中明确指出这一点。

我建议将IS_UTF8_BYTE()重命名为IS_UTF8_MULTIBYTE(),因为ASCII字符≤127也是有效的UTF--也是8个字节--而不是多字节序列的成员。

代码语言:javascript
复制
//check if value is in range of leading byte (0b11?????? but not 0b11111???)
#define IS_UTF8_LEADING_BYTE(b) (((b) & 0xc0) && !((b) & 0xf8))

//check if value is in range of sequence byte (0b10??????)
#define IS_UTF8_SEQUENCE_BYTE(b) (((b) & 0x80) && !((b) & 0xc0))

//can be any byte within a UTF-8 multibyte sequence
#define IS_UTF8_MULTIBYTE(b) (IS_UTF8_LEADING_BYTE(b) || IS_UTF8_SEQUENCE_BYTE(b))

//no error checking; it must be used only on leading byte
#define HOW_MANY_UTF8_SEQUENCE_BYTES(b) (((b) & 0x40 == 0x40) + ((b) & 0x20 == 0x20) + ((b) & 0x10 == 0x10))

IS_UTF8_SEQUENCE_BYTE()可能会更聪明。

代码语言:javascript
复制
//check if value is in range of sequence byte (0b10??????)
#define IS_UTF8_SEQUENCE_BYTE(b) ((b) & 0xc0 == 0x80)
票数 3
EN
页面原文内容由Code Review提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://codereview.stackexchange.com/questions/32567

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档