我正在尝试使用机械化从metacriti*网站上获取一些数据,但是我没有得到输出
下面是我的代码和一个url示例:
my $metaURL = "http://www.metacriti*.com/game/pc/dota-2";
my $mech = WWW::Mechanize->new();
$mech->get($metaURL) or die "unable to get $metaURL";
my $tree = HTML::TreeBuilder::XPath->new;
$tree->parse($mech->content);
my @nodes = $tree->findnodes(q{//*[@id="main"]//a[contains(./@href, "user-reviews")]/span[@class="score_value"]});
print $_->string_value, "\n" foreach(@nodes); # text@nodes数组似乎是空的,我的xpath似乎很好,而且由于我在另一个工作脚本中使用了相同的语法,我真的无法弄清楚这个脚本有什么问题.
同时,由于这只是刚刚开始,也许你可以建议我另一个简单的方式来刮/解析网站.如果有更好的建议:)
提前谢谢你
发布于 2013-10-09 13:46:29
HTML看起来真的很糟糕,如果您搜索$tree->findnodes( '//div[@id="main"]')->[0]->as_HTML,就会得到一个非常简单的div:
<div class="col main_col" id="main"><div itemscope="itemscope" itemtype="http://schema.org/SoftwareApplication"></div></div>这实际上不包含任何a,这解释了您得到的结果。
我试着使用tidy来漂亮地打印HTML,但它在文件上发出了响声。
如果您忘记div并使用q{//a[contains(./@href, "user-reviews")]/span[@class="score_value"]},那么您将得到一个结果,在本例中是7.9。
https://stackoverflow.com/questions/19271173
复制相似问题