首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在C#中获取包含表情符号的字符串的正确长度

如何在C#中获取包含表情符号的字符串的正确长度
EN

Stack Overflow用户
提问于 2018-07-24 23:29:55
回答 2查看 1.7K关注 0票数 7

English-flag-emoji由14个字节的数据组成,当它们组合在一起时将呈现一个字符-。

如果我的代码如下所示:

代码语言:javascript
复制
var test = "\ud83c\udff4\udb40\udc67\udb40\udc62\udb40\udc65\udb40\udc6e\udb40\udc67\udb40\udc7f";

Console.WriteLine(test);
Console.WriteLine(test.Length);

它将打印字符和数字14。不知何故,我希望它返回1。在互联网上搜索答案时,我找到了这个解决方案:

代码语言:javascript
复制
var stringInfo = new System.Globalization.StringInfo(test);
Console.WriteLine(stringInfo.LengthInTextElements);

问题是,它输出的是7。我猜它会把它解释成双字节unicode,只给我一半的字节长度。有关工作示例,请参阅此dotnetfiddle

如何获取字符串将被表示为的字形数量?

这是一个用Swift编写的类似测试,在OSX上的XCode中运行,它显然和我想要的一样工作,但我需要它在C#中运行。

EN

回答 2

Stack Overflow用户

发布于 2018-08-02 05:12:48

冗长的评论(可能不是真正的答案)。

例如,参见Wikipedia: Tags (Unicode block),序列"\ud83c\udff4\udb40\udc67\udb40\udc62\udb40\udc65\udb40\udc6e\udb40\udc67\udb40\udc7f"是一种非常新的Unicode标准。这在.NET中还不受支持(也许永远不会支持)。

编写你自己的方法来支持它。

顺便说一句,不是写:

代码语言:javascript
复制
"\ud83c\udff4\udb40\udc67\udb40\udc62\udb40\udc65\udb40\udc6e\udb40\udc67\udb40\udc7f"

在我看来,更清楚的是这样写:

代码语言:javascript
复制
"\U0001F3F4\U000E0067\U000E0062\U000E0065\U000E006E\U000E0067\U000E007F"

当然,这是相同的字符串。

如果您的源代码文件采用支持Unicode的编码,则还可以使用:

代码语言:javascript
复制
""

当然了。

票数 0
EN

Stack Overflow用户

发布于 2021-06-26 09:05:32

在.NET 5中只需使用StringInfo.LengthInTextElements即可。在以前版本的.NET中,此方法在这些表情符号上具有错误的行为。你可以看看这个blog

在我的C#交互(.NET核心模式)中,我得到这样的结果:

代码语言:javascript
复制
> Environment.Version
[5.0.7]
> var stringInfo = new System.Globalization.StringInfo("");
. Console.WriteLine(stringInfo.LengthInTextElements);
1
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51502486

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档