问来自XML包的r- htmlParse()不能理解俄语字母
EN

Stack Overflow用户

提问于 2014-01-19 12:33:39

回答 1查看 7.8K关注 0票数 2

我看了几天这个bug，看起来htmlParse函数在解析俄罗斯符号时有编码问题。

例如：

htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")

这个页面是用UTF-8编码的，但是可以肯定的是，我正在用UTF-8对htmlParse进行编码。

但是在htmlParse()输出中，英语符号是正确编码的，但是俄语看起来是典型的错误编码符号。

我使用的是Windows 8，我的语言环境是Russian_Russia.1251。我认为非Unicode语言环境是问题所在，因为当我在Ubuntu中使用这个命令时，一切都按预期工作，但是Ubuntu有en_EN.UTF-8语言环境。

html-parsing

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-01-19 13:03:09

我不知道你试过什么，但这对我来说很好：

doc <- htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")
 xpathSApply(doc,'//*[@id="mw-content-text"]/ul/li/a',xmlValue)
[1] "Russia (фильм)"    "Киры Муратовой"    "Наша Russia"      
    "Руша (Огайо)"      "англ."             "Россия (значения)"

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21216806

复制

相似问题

问来自XML包的r- htmlParse()不能理解俄语字母
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问来自XML包的r- htmlParse()不能理解俄语字母EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问来自XML包的r- htmlParse()不能理解俄语字母
EN