我从SAS导入了一些奇怪的变量,用Unicode值表示上标注册商标®,并使用gsub尝试使变量在R中打印注册商标。我在下面制作了一些虚拟数据,只是为了说明我所做的事情。由于某些原因,它打印了一个额外的符号。有人知道为什么会发生这种情况吗?
var1<-factor(c("prod1^{unicode 00AE}","prod2^{unicode 00AE}"))
var2<-as.factor(sapply(var1,gsub,pattern="\\{unicode 00AE\\}",replacement="\u00AE"))
> var2
[1] prod1^® prod2^®
Levels: prod1^® prod2^®发布于 2017-08-22 03:17:36
不确定gsub发生了什么;但stringr提供的str_replace_all能够提供所需的输出:
> var1<-factor(c("prod1^{unicode 00AE}","prod2^{unicode 00AE}"))
> var2<-as.factor(sapply(var1,str_replace_all,pattern="\\{unicode 00AE\\}",replacement="\U00AE"))
> var2
[1] prod1^® prod2^®
Levels: prod1^® prod2^®发布于 2017-08-22 03:32:04
该错误源于这样一个事实:即使使用了fixed=TRUE,gsub也不能正确处理替换中的\uXXXX表示法。实际上,您需要将结果“手动”设置为UTF8。听着,这会行得通的:
> res <- gsub("{unicode 00AE}", "\u00AE", x, fixed=TRUE)
> res
[1] "prod1^®"
> Encoding(res) <- "UTF-8"
> res
[1] "prod1^®"在您的示例中,您只需使用replacement="®",它将正确显示结果:
> var2<-as.factor(sapply(var1,gsub,pattern="{unicode 00AE}",replacement="®", fixed=TRUE))
> var2
[1] prod1^® prod2^®
Levels: prod1^® prod2^®https://stackoverflow.com/questions/45803891
复制相似问题