首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R3.1.1(32位):htmlParse()搞糟希伯来语文本,OS: Win 7

R3.1.1(32位):htmlParse()搞糟希伯来语文本,OS: Win 7
EN

Stack Overflow用户
提问于 2014-08-22 11:39:40
回答 1查看 214关注 0票数 1

试图解析希伯来语.HTML网页,并且在使用RCurl工具时遇到了问题。我一直在读下面的文章:

我使用了以下R代码:

代码语言:javascript
复制
library(XML)
library(RCurl)
url_get<-"http://www.agora.co.il/toGet.asp?searchType=searchAll&amp;dealType=1&amp;dealStatus=1"
download.file(url_get, "codes/tmp.html")
txt <- readLines("codes/tmp.html", encoding="UTF-8")
pagetree <- htmlParse(txt, useInternalNodes = TRUE, encoding="UTF-8")

而readLines()产生适当的希伯来语(בעלימקצוע);

代码语言:javascript
复制
 txt[345]
[1] "<a id=\"professionals\" href=\"/texts/midrag.asp?parameter=\" target=\"_blank\" title=\"בעלי מקצוע\">"

htmlParse()把它搞砸了(׳·׳-׳-׳₪׳׳™׳™׳“׳׳™׳™׳”׳)׳׳™׳“׳׳׳׳™׳吲哚”“。

代码语言:javascript
复制
    <a href="http://shlah.agora.co.il/financial/financial1.html">׳׳¦׳׳× ׳׳”׳׳™׳ ׳•׳¡</a><br><br><span class="linkWords">׳׳•׳— ׳—׳₪׳¦׳™ ׳™׳“ ׳©׳ ׳™׳” ׳׳׳¡׳™׳¨׳” ׳‘׳—׳™׳ ׳ ׳‘׳׳‘׳“ -

有什么想法吗?

代码语言:javascript
复制
sessionInfo()
R version 3.1.1 (2014-07-10)
Platform: i386-w64-mingw32/i386 (32-bit)

locale:
[1] LC_COLLATE=Hebrew_Israel.1255  LC_CTYPE=Hebrew_Israel.1255    LC_MONETARY=Hebrew_Israel.1255
[4] LC_NUMERIC=C                   LC_TIME=Hebrew_Israel.1255    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] RCurl_1.95-4.3 bitops_1.0-6   XML_3.98-1.1  

loaded via a namespace (and not attached):
[1] tools_3.1.1
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-08-25 14:46:37

我不能重复你的问题。以下是我所采取的步骤:

  1. 首先,尝试一个非常简单的HTML 5文档: 库(XML)#这是最简单有效的HTML-5 # http://www.brucelawson.co.uk/2010/a-minimal-html5-document/ hebrew1 <-“en19”htmlParse(hebrew1) # NOT #> #>×××§×#> htmlParse(hebrew1,en19= "UTF-8") # OK #> hebrew2 <-“hebrew2”htmlParse(hebrew2) # OK #> #> htmlParse
  2. 直接从URL尝试: <- "dealStatus=1“html <- htmlParse( url,encoding = "UTF-8") XML::getNodeSet(html,"//a")[1] #>התחבר/י
  3. 来自磁盘的负载: download.file(url,tmp) html <- htmlParse( tmp,html= "UTF-8") XML::getNodeSet(html,"//a")[1] #>התחבר/י
  4. 线路荷载 <- readLines(tmp) html <- htmlParse(line,html= "UTF-8") XML::getNodeSet(html,"//a")[1] #>התחבר/י
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25446141

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档