首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >来自XML包的r- htmlParse()不能理解俄语字母

来自XML包的r- htmlParse()不能理解俄语字母
EN

Stack Overflow用户
提问于 2014-01-19 12:33:39
回答 1查看 7.8K关注 0票数 2

我看了几天这个bug,看起来htmlParse函数在解析俄罗斯符号时有编码问题。

例如:

代码语言:javascript
复制
htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")

这个页面是用UTF-8编码的,但是可以肯定的是,我正在用UTF-8对htmlParse进行编码。

但是在htmlParse()输出中,英语符号是正确编码的,但是俄语看起来是典型的错误编码符号。

我使用的是Windows 8,我的语言环境是Russian_Russia.1251。我认为非Unicode语言环境是问题所在,因为当我在Ubuntu中使用这个命令时,一切都按预期工作,但是Ubuntu有en_EN.UTF-8语言环境。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-01-19 13:03:09

我不知道你试过什么,但这对我来说很好:

代码语言:javascript
复制
doc <- htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")
 xpathSApply(doc,'//*[@id="mw-content-text"]/ul/li/a',xmlValue)
[1] "Russia (фильм)"    "Киры Муратовой"    "Наша Russia"      
    "Руша (Огайо)"      "англ."             "Россия (значения)"
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21216806

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档