首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >perl dom机械化xpath

perl dom机械化xpath
EN

Stack Overflow用户
提问于 2013-10-09 11:48:00
回答 1查看 930关注 0票数 4

我正在尝试使用机械化从metacriti*网站上获取一些数据,但是我没有得到输出

下面是我的代码和一个url示例:

代码语言:javascript
复制
my $metaURL = "http://www.metacriti*.com/game/pc/dota-2";

my $mech = WWW::Mechanize->new();
$mech->get($metaURL) or die "unable to get $metaURL";

my $tree = HTML::TreeBuilder::XPath->new;
$tree->parse($mech->content);

my @nodes = $tree->findnodes(q{//*[@id="main"]//a[contains(./@href, "user-reviews")]/span[@class="score_value"]});

print $_->string_value, "\n" foreach(@nodes); # text

@nodes数组似乎是空的,我的xpath似乎很好,而且由于我在另一个工作脚本中使用了相同的语法,我真的无法弄清楚这个脚本有什么问题.

同时,由于这只是刚刚开始,也许你可以建议我另一个简单的方式来刮/解析网站.如果有更好的建议:)

提前谢谢你

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-09 13:46:29

HTML看起来真的很糟糕,如果您搜索$tree->findnodes( '//div[@id="main"]')->[0]->as_HTML,就会得到一个非常简单的div:

代码语言:javascript
复制
<div class="col main_col" id="main"><div itemscope="itemscope" itemtype="http://schema.org/SoftwareApplication"></div></div>

这实际上不包含任何a,这解释了您得到的结果。

我试着使用tidy来漂亮地打印HTML,但它在文件上发出了响声。

如果您忘记div并使用q{//a[contains(./@href, "user-reviews")]/span[@class="score_value"]},那么您将得到一个结果,在本例中是7.9

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19271173

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档