中获取页面计数的最新下载链接。
http://dumps.wikimedia.org/other/pagecounts-raw/2011/2011-11/使用XPath?
http://dumps.wikimedia.org/other/pagecounts-raw/2011/2011-11/pagecounts-20111115-140000.gz我选择了(机械化):
agent.get(url).search("//*[@href[contains(.,'pagecounts')]]")#.last 但是我仍然在获取XPath表达式中的最后一个元素时遇到了问题。
发布于 2011-11-16 14:35:14
要从XPath的集合中选择最后一个节点,请使用
[position()=last()]或者甚至只是
[last()]因为您想从整个文档集中检索最后一个锚点,所以使用这个(在PHP中测试过,但在Mechanize中应该可以做到)
(//a[starts-with(@href, 'pagecounts')])[last()]https://stackoverflow.com/questions/8147535
复制相似问题