文章/答案/技术大牛

发布

社区首页 >问答首页 >R3.1.1(32位)：htmlParse()搞糟希伯来语文本，OS: Win 7

问R3.1.1(32位)：htmlParse()搞糟希伯来语文本，OS: Win 7
EN

Stack Overflow用户

提问于 2014-08-22 11:39:40

回答 1查看 214关注 0票数 1

试图解析希伯来语.HTML网页，并且在使用RCurl工具时遇到了问题。我一直在读下面的文章：

让htmlParse与希伯来语一起工作
从用RCurl刮过的网页中提取一个干净的"UTF-8“文本(这个适用于日本人，但解决方案不适合我的计算机)。
R-帮助:让htmlParse使用希伯来语(在Windows上)

我使用了以下R代码：

library(XML)
library(RCurl)
url_get<-"http://www.agora.co.il/toGet.asp?searchType=searchAll&amp;dealType=1&amp;dealStatus=1"
download.file(url_get, "codes/tmp.html")
txt <- readLines("codes/tmp.html", encoding="UTF-8")
pagetree <- htmlParse(txt, useInternalNodes = TRUE, encoding="UTF-8")

而readLines()产生适当的希伯来语(בעלימקצוע)；

 txt[345]
[1] "<a id=\"professionals\" href=\"/texts/midrag.asp?parameter=\" target=\"_blank\" title=\"בעלי מקצוע\">"

htmlParse()把它搞砸了(׳·׳-׳-׳₪׳׳™׳™׳“׳׳™׳™׳”׳)׳׳™׳“׳׳׳׳™׳吲哚”“。

    <a href="http://shlah.agora.co.il/financial/financial1.html">׳׳¦׳׳× ׳׳”׳׳™׳ ׳•׳¡</a><br><br><span class="linkWords">׳׳•׳— ׳—׳₪׳¦׳™ ׳™׳“ ׳©׳ ׳™׳” ׳׳׳¡׳™׳¨׳” ׳‘׳—׳™׳ ׳ ׳‘׳׳‘׳“ -

有什么想法吗？

sessionInfo()
R version 3.1.1 (2014-07-10)
Platform: i386-w64-mingw32/i386 (32-bit)

locale:
[1] LC_COLLATE=Hebrew_Israel.1255  LC_CTYPE=Hebrew_Israel.1255    LC_MONETARY=Hebrew_Israel.1255
[4] LC_NUMERIC=C                   LC_TIME=Hebrew_Israel.1255    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] RCurl_1.95-4.3 bitops_1.0-6   XML_3.98-1.1  

loaded via a namespace (and not attached):
[1] tools_3.1.1

encoding

html-parsing

hebrew

rcurl

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-08-25 14:46:37

我不能重复你的问题。以下是我所采取的步骤：

首先，尝试一个非常简单的HTML 5文档：库(XML)#这是最简单有效的HTML-5 # http://www.brucelawson.co.uk/2010/a-minimal-html5-document/ hebrew1 <-“en19”htmlParse(hebrew1) # NOT #> #>×××§×#> htmlParse(hebrew1，en19= "UTF-8") # OK #> hebrew2 <-“hebrew2”htmlParse(hebrew2) # OK #> #> htmlParse
直接从URL尝试： <- "dealStatus=1“html <- htmlParse( url，encoding = "UTF-8") XML::getNodeSet(html，"//a")[1] #>התחבר/י
来自磁盘的负载： download.file(url，tmp) html <- htmlParse( tmp，html= "UTF-8") XML::getNodeSet(html，"//a")[1] #>התחבר/י
线路荷载 <- readLines(tmp) html <- htmlParse(line，html= "UTF-8") XML::getNodeSet(html，"//a")[1] #>התחבר/י

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25446141

复制

相似问题

问R3.1.1(32位)：htmlParse()搞糟希伯来语文本，OS: Win 7
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R3.1.1(32位)：htmlParse()搞糟希伯来语文本，OS: Win 7EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R3.1.1(32位)：htmlParse()搞糟希伯来语文本，OS: Win 7
EN