首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Anemone爬行子域

使用Anemone爬行子域
EN

Stack Overflow用户
提问于 2012-02-15 15:16:41
回答 2查看 736关注 0票数 3

我用的是银莲花。我如何抓取子域?例如,如果我有网站www.abc.com,我的爬虫也应该爬行support.abc.comblah.abc.com。我使用的是Ruby 1.8.7和Rails 3。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-02-17 06:40:56

这是Github上的一个提交,它解决了你的问题。

https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928

根据链接更改您的银莲花gem文件。

票数 4
EN

Stack Overflow用户

发布于 2012-02-16 02:17:38

根据Anemone docs,您可以在crawl命令中传递多个站点:

代码语言:javascript
复制
Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")

当然,你的下一个问题可能是ABC禁止你抓取他们的网站,但这是一个不同的问题。

票数 -2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9289336

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档