我在火狐中使用了WWW::Mechanize::Firefox和MozRepl插件。通过向站点发送HTTP GET请求,代码可以正确地从站点获取内容。
我正在浏览URL列表,并向每个URL发送HTTP GET请求。
但是,如果请求挂起在特定的URL上,它将继续等待。
请注意,我指的是网页内容的一部分被加载,而一些内容仍然悬而未决的情况。如果网页从第三方站点加载了大量内容,并且如果其中一个资源(例如图像)无法加载,浏览器就会继续等待它。
我希望请求在'n‘秒后超时,这样我就可以从列表中读取下一个URL,并继续执行代码。
在WWW::Mechanize模块中,构造函数支持超时选项,如下所示:
$mech=WWW::Mechanize->new(timeout => 10);但是,我在Perl模块的文档WWW::Mechanize::Firefox中找不到类似的选项:
http://metacpan.org/pod/WWW::Mechanize::Firefox
我试过这个:
$mech=WWW::Mechanize::Firefox->new(timeout => 10);但我认为它不起作用,因为仍然有一些网站的请求挂起。
发布于 2017-06-29 21:14:48
WWW::Mechanize::Firefox使用Mozrepl来连接火狐浏览器,所以你不需要声明超时参数,因为火狐会等待页面加载。
如果你想检查站点是否真的完全加载,你应该检查你想要的元素(例如div)是否存在:
while (!$mech->is_visible( xpath => '//div[@class="myDivClassAtHtml"]')) {
sleep 1;
};
# do something with your pagehttps://stackoverflow.com/questions/22311475
复制相似问题