我们可以用海葵抓取一个洞网站(例如:https://stackoverflow.com/),但如果我只想专注于某个文件夹(例如:https://stackoverflow.com/questions)怎么办?我该怎么做呢?也许可以使用"focus_crawl“方法?
发布于 2012-08-09 01:28:04
检查keep_if方法可能会有所帮助
http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1
试着在你想抓取的时候传递这个模式
还有一个要点是https://gist.github.com/1149906。
注意:我还没有测试过它,但您一定可以尝试一下。
https://stackoverflow.com/questions/11868748
复制相似问题