问sting编码的检测与转换
EN

Stack Overflow用户

提问于 2014-12-11 17:00:19

回答 1查看 80关注 0票数 0

我有绳子：

string <- "{'text': u'Kandydaci PSL do Parlamentu Europejskiego  \\u2013 OKR\\u0118G nr 1: Obejmuje obszar wojew\\xf3dztwa pomorskiego z siedzib\\u0105 ok... http://t.co/aZbjK7ME1O', 'created_at': u'Mon May 19 11:30:07 +0000 2014'}"

如你所见，我有一些密码而不是字母。据我所知，有UTH-8代码的波兰字符，如ą，ć，ź，等等。如何转换此字符串以获得输出

"{'text': u'Kandydaci PSL do Parlamentu Europejskiego  \\u2013 OKRĄG nr 1: Obejmuje obszar województwa pomorskiego z siedzibą ok... http://t.co/aZbjK7ME1O', 'created_at': u'Mon May 19 11:30:07 +0000 2014'}"

json

encoding

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-12-11 21:51:11

下面是一个正则表达式，用于查找表单\udddd和\xdd中的所有转义字符。然后，我们获取这些值，并重新解析它们，将它们转换为字符。最后，我们将原始匹配值替换为真字符。

m <- gregexpr("\\\\u\\d{4}|\\\\x[0-9A_Fa-f]{2}", string)
a <- enc2utf8(sapply(parse(text=paste0('"', regmatches(string,m)[[1]], '"')), eval))
regmatches(string,m)[[1]] <- a

这会把他们都搞定的。如果你只想做一个子集，你可以过滤的向量，可能的替代。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27428371

复制

相似问题

问sting编码的检测与转换
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问sting编码的检测与转换EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问sting编码的检测与转换
EN