我一直在使用rvest包执行一些数据分析的屏幕抓取,但是有一些查询每个查询都需要几秒钟才能实际收集数据。例如:
sectorurl = paste("http://finance.yahoo.com/q/pr?s=,",ticker,"+Profile", sep= "")
index <- read_html( sectorurl)第二步是花费时间的步骤,所以我想知道在R的后台是否有任何诊断,或者可以运行一个聪明的包来确定“网络等待时间”,而不是CPU时间,或者类似的东西。
我想知道我是否被困在我拥有的性能上,或者我的R代码实际上执行得很好,并且是http响应限制了我的处理速度。
发布于 2016-03-01 01:52:51
我不认为您能够将REST调用与客户端代码分开。然而,我访问web服务的经验是,网络时间通常主导着总的运行时间,"CPU“时间是一个数量级,甚至更少。
您可以尝试的一个选择是将您的URL粘贴到web浏览器中,然后从控制台查看需要多长时间才能完成。您可以将此时间与同一调用在R中花费的总时间进行比较。为此,可以尝试使用system.time,它返回给定表达式使用的CPU时间。
require(stats)
system.time(read_html(sectorurl))有关更多信息,请查看documentation。
https://stackoverflow.com/questions/35706028
复制相似问题