首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在不分配字符串的情况下将UTF-8转义字节数组取消转义为未转义字节数组

如何在不分配字符串的情况下将UTF-8转义字节数组取消转义为未转义字节数组
EN

Stack Overflow用户
提问于 2019-12-08 22:07:23
回答 1查看 327关注 0票数 0

我有一个表示转义字符串UTF-8的Span<byte>,如下所示:

二进制表示法:byte[20] { 72, 101, 108, 108, 111, 32, 119, 111, 114, 108, 100, 32, 92, 117, 50, 48, 97, 99, 32, 33 }

转义表示:"Hello world \u20ac !"

所需的二进制结果:byte[17] { 72, 101, 108, 108, 111, 32, 119, 111, 114, 108, 100, 32, 226, 130, 172, 32, 33 }

我尝试使用GetString()方法对转义的\u20ac进行代码转换:Encoding.UTF8.GetBytes(Encoding.UTF8.GetString())

但这并不是不转义输入。

有没有办法达到同样的效果呢?

代码语言:javascript
复制
// Not working solution
public void NotWorkingUnescape(ReadOnlySpan<byte> source, Span<byte> destination)
{
    var tmp = Encoding.UTF8.GetString(source);
    Encoding.UTF8.GetBytes(tmp, destination);
}

// Unknown solution
// UTF-8 escaped byte array -> UTF8-8 unescaped byte array
public void FastUnescape(ReadOnlySpan<byte> source, Span<byte> destination)
{
    // ?
}
EN

回答 1

Stack Overflow用户

发布于 2019-12-08 22:57:10

您是否在寻找一种可以完成所有工作的方法?

您可以简单地使用以下命令:

代码语言:javascript
复制
public void FastUnescape(ReadOnlySpan<byte> source, Span<byte> destination)
{
    Encoding.UTF8.GetBytes(Encoding.UTF8.GetString(source), destination);
}

或防止任何异常:

代码语言:javascript
复制
public void FastUnescape(ReadOnlySpan<byte> source, Span<byte> destination)
{
    if (source.Length <= destination.Length)
    {
        Encoding.UTF8.GetBytes(Encoding.UTF8.GetString(source), destination);
    }
}

更新:

还有一种不使用Encoding.UTF8进行转换的方法,通过查看@JonSkeet响应,您可以实现以下内容:

代码语言:javascript
复制
public static void AnotherMethod(ReadOnlySpan<byte> source, Span<byte> destination)
{
    for (int i = 0; i < source.Length; i++)
    {
        destination[i] = (byte) (Convert.ToChar(source[i]));
    }
}

这段代码的问题是,当使用Convert.toChar时,转换为等效的Unicode字符而不是UTF-8字符,这就是为什么在答案的末尾使用& 0x7f来获取ASCII值范围。

我没有对您想转义的其他特殊字符进行过多的性能或功能测试,但是我已经获得了相同的结果

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59236188

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档