首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >sting编码的检测与转换

sting编码的检测与转换
EN

Stack Overflow用户
提问于 2014-12-11 17:00:19
回答 1查看 80关注 0票数 0

我有绳子:

代码语言:javascript
复制
string <- "{'text': u'Kandydaci PSL do Parlamentu Europejskiego  \\u2013 OKR\\u0118G nr 1: Obejmuje obszar wojew\\xf3dztwa pomorskiego z siedzib\\u0105 ok... http://t.co/aZbjK7ME1O', 'created_at': u'Mon May 19 11:30:07 +0000 2014'}"

如你所见,我有一些密码而不是字母。据我所知,有UTH-8代码的波兰字符,如ą,ć,ź,等等。如何转换此字符串以获得输出

代码语言:javascript
复制
"{'text': u'Kandydaci PSL do Parlamentu Europejskiego  \\u2013 OKRĄG nr 1: Obejmuje obszar województwa pomorskiego z siedzibą ok... http://t.co/aZbjK7ME1O', 'created_at': u'Mon May 19 11:30:07 +0000 2014'}"
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-12-11 21:51:11

下面是一个正则表达式,用于查找表单\udddd\xdd中的所有转义字符。然后,我们获取这些值,并重新解析它们,将它们转换为字符。最后,我们将原始匹配值替换为真字符。

代码语言:javascript
复制
m <- gregexpr("\\\\u\\d{4}|\\\\x[0-9A_Fa-f]{2}", string)
a <- enc2utf8(sapply(parse(text=paste0('"', regmatches(string,m)[[1]], '"')), eval))
regmatches(string,m)[[1]] <- a

这会把他们都搞定的。如果你只想做一个子集,你可以过滤的向量,可能的替代。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27428371

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档