我有绳子:
string <- "{'text': u'Kandydaci PSL do Parlamentu Europejskiego \\u2013 OKR\\u0118G nr 1: Obejmuje obszar wojew\\xf3dztwa pomorskiego z siedzib\\u0105 ok... http://t.co/aZbjK7ME1O', 'created_at': u'Mon May 19 11:30:07 +0000 2014'}"如你所见,我有一些密码而不是字母。据我所知,有UTH-8代码的波兰字符,如ą,ć,ź,等等。如何转换此字符串以获得输出
"{'text': u'Kandydaci PSL do Parlamentu Europejskiego \\u2013 OKRĄG nr 1: Obejmuje obszar województwa pomorskiego z siedzibą ok... http://t.co/aZbjK7ME1O', 'created_at': u'Mon May 19 11:30:07 +0000 2014'}"发布于 2014-12-11 21:51:11
下面是一个正则表达式,用于查找表单\udddd和\xdd中的所有转义字符。然后,我们获取这些值,并重新解析它们,将它们转换为字符。最后,我们将原始匹配值替换为真字符。
m <- gregexpr("\\\\u\\d{4}|\\\\x[0-9A_Fa-f]{2}", string)
a <- enc2utf8(sapply(parse(text=paste0('"', regmatches(string,m)[[1]], '"')), eval))
regmatches(string,m)[[1]] <- a这会把他们都搞定的。如果你只想做一个子集,你可以过滤的向量,可能的替代。
https://stackoverflow.com/questions/27428371
复制相似问题