我用的是银莲花。我如何抓取子域?例如,如果我有网站www.abc.com,我的爬虫也应该爬行support.abc.com或blah.abc.com。我使用的是Ruby 1.8.7和Rails 3。
发布于 2012-02-17 06:40:56
这是Github上的一个提交,它解决了你的问题。
https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928
根据链接更改您的银莲花gem文件。
发布于 2012-02-16 02:17:38
根据Anemone docs,您可以在crawl命令中传递多个站点:
Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")当然,你的下一个问题可能是ABC禁止你抓取他们的网站,但这是一个不同的问题。
https://stackoverflow.com/questions/9289336
复制相似问题