我需要下载以下网页:panel#10096
这是一个体育博彩网页,我需要报价。所以,首先,这看起来很简单。然而,下面是发生的事情(你可以用eg来检查这个。(浏览器的开发工具):
相反,我需要使用能够评估javascript的无头浏览器。HtmlUnit for java是不够的,因为它没有提供健壮的javascript功能。因此,PhantomJS与CasperJS相结合是我目前的选择。我使用以下脚本应用CasperJS:
var casper = require('casper').create();
casper.start('http://m.10bet.com/#leage_panel#10096', function() {
var url = 'http://m.10bet.com/#leage_panel#10096';
this.download(url, '10bet.html');
});
casper.run(function() {
this.echo('Done.').exit();
});但是,此脚本没有加载完整的页面。只是信息页。如何在浏览器中加载完整的网页?
发布于 2013-11-27 05:20:33
这个脚本看起来是一个很好的开始,但是一旦(HTML)页面加载,(CasperJS)脚本就停止了,因为您没有给它任何更多的指令。解决这一问题的最简单的方法是睡上几秒钟,然后刮掉页面:
var casper = require('casper').create();
var fs=require('fs');
casper.start('http://m.10bet.com/#leage_panel#10096', function() {
this.wait(2000, function() {
fs.write("10bet.html", this.getHTML() );
});
});
casper.run();2000毫秒的超时值是粗糙的,原因有两个:
因此,最好在页面上标识您想要和需要的内容,然后使用Casper的waitForXXX()函数之一。参见这里开始的API文档:http://casperjs.readthedocs.org/en/latest/modules/casper.html#waitfor
作为另一点,我猜您实际上并不想要整个HTML页面,而只是其中的数据。getHTML()接受一个参数来过滤接收到的内容。在你的例子中,getHTML('#league_block')可能更有用。同样,请参阅API文档以获得更多的想法。
https://stackoverflow.com/questions/20226345
复制相似问题