首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Anemone仅爬网一个子文件夹

如何使用Anemone仅爬网一个子文件夹
EN

Stack Overflow用户
提问于 2012-08-09 00:12:53
回答 1查看 542关注 0票数 2

我们可以用海葵抓取一个洞网站(例如:https://stackoverflow.com/),但如果我只想专注于某个文件夹(例如:https://stackoverflow.com/questions)怎么办?我该怎么做呢?也许可以使用"focus_crawl“方法?

EN

回答 1

Stack Overflow用户

发布于 2012-08-09 01:28:04

检查keep_if方法可能会有所帮助

http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1

试着在你想抓取的时候传递这个模式

还有一个要点是https://gist.github.com/1149906

注意:我还没有测试过它,但您一定可以尝试一下。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11868748

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档