问题
我正在尝试使用https://www.ato.gov.au/sitemap.xml (N.B,它是一个~9mb文件)使用xml2获取所有url。任何指南针都会赏识。
我的尝试
library("xml2")
data1 <- read_xml("https://www.ato.gov.au/sitemap.xml")
xml_find_all(data, ".//loc")我没有得到我需要的输出:
{xml_nodeset (0)}
发布于 2019-05-04 13:51:26
不使用xml2,但我可以通过rvest获得它
library(dplyr)
library(rvest)
url <- "https://www.ato.gov.au/sitemap.xml"
url %>%
read_html() %>%
html_nodes("loc") %>%
html_text()发布于 2019-05-04 15:29:11
万一您需要dataframe中的所有urls,您可以使用下面的代码:
library(XML)
library(xml2)
library(httpuv)
library(httr)
library(RCurl)
library(data.table)
library(dplyr)
url <- "https://www.ato.gov.au/sitemap.xml"
xData <- getURL(url)
doc <- xmlParse(xData)
data<-xmlToList(doc)
a<-as.data.frame(unlist(data))
a<-dplyr::filter(a,grepl("http",`unlist(data)`) )
head(a)上面的代码将为您提供一个包含所有urls列表的数据。我只是想知道您也可以使用"Xenu“url获取软件从网站中提取url,而这些url并不包括在站点地图中。告诉我以防你卡在中间的某个地方。
https://stackoverflow.com/questions/55982817
复制相似问题