我对R比较陌生,我自愿尝试使用它来确定旧媒体服务器上的哪些文件仍在使用,哪些文件没有使用。我可以访问服务器日志,特别是cs-uri-stem列。下面是我输入head(Uridata)时得到的结果:
1: /favicon.ico
2: /courses/filipino/Kuwentong_Pambata/Isinaayos_ni_Leslie_Joy_Cruz.html
3: /courses/filipino/Kuwentong_Pambata/Isinaayos_ni_Leslie_Joy_Cruz_files/Isinaayos_ni_Leslie_Joy_Cruz.css
4: /courses/filipino/Kuwentong_Pambata/Isinaayos_ni_Leslie_Joy_Cruz_files/Isinaayos_ni_Leslie_Joy_CruzMoz.css
5: /courses/filipino/Kuwentong_Pambata/Isinaayos_ni_Leslie_Joy_Cruz_files/shapeimage_1.jpg
6: /courses/filipino/Kuwentong_Pambata/Isinaayos_ni_Leslie_Joy_Cruz_files/WidgetCommon.js显然,本例中的示例都来自一组文件夹,但实际上,有数千个不同的文件夹和语言,所有这些文件夹都有自己的网站。我感兴趣的是能够将其可视化为一棵树,以查看哪些文件夹/语言仍在使用。
我看过R的data.tree包,我认为它是最理想的。我曾尝试按照https://cran.r-project.org/web/packages/data.tree/vignettes/data.tree.html#trees-in-data.tree上的指南操作,但当我输入"as.Node(uridata)“时,R给出错误消息"Error in myrow[pathName]:subscript out of”。我在网上搜索了这个错误,我知道当你试图调用一个不在原始数据集中的下标时,它就会发生,但我不明白为什么它会发生在这里。
有没有人能给我一些指导,告诉我为什么会遇到这个问题,或者我如何解决它?我使用RStudio在OS 10.11.3上运行R 3.2.3。
发布于 2016-03-25 00:14:12
不要紧,我想通了。我第一次没有仔细阅读data.tree指南。为了使用as.Node()将我的HTML路径转换为树,我需要使用以下命令添加一个列$pathString,其中包含相同的数据:
uridata$pathString <- paste("..", uridata$cs.uri.stem, sep = "/")这将为数据创建一个"pathString“列。然后,as.Node(uridata)就可以正常工作了。
https://stackoverflow.com/questions/36203019
复制相似问题