文章/答案/技术大牛

发布

社区首页 >问答首页 >Scrapy管理动态爬行器

问Scrapy管理动态爬行器
EN

Stack Overflow用户

提问于 2013-07-02 17:17:48

回答 1查看 964关注 0票数 3

我正在建设一个项目，我需要一个网络爬虫爬行不同的网页列表。此列表可以随时更改。这是如何用scrapy最好地实现的？我应该为所有网站创建一个爬虫，还是动态创建蜘蛛？

我读过关于scrapyd的文章，我猜动态创建爬行器是最好的方法。不过，我需要一个关于如何实现它的提示。

回答已采纳

发布于 2014-09-12 15:43:35

如果解析逻辑相同，则有两种方法，

对于大量网页，您可以创建一个列表并在开头读取该列表，最好使用start_requests方法或在构造函数中，然后将该列表分配给start_urls
You可以将网页链接作为参数从命令行参数传递给爬行器，同样，在requests_method或构造函数中也可以访问此参数并将其分配给start_urls

在scrapy中传递参数

    scrapy crawl spider_name -a start_url=your_url

在scrapyd中用-d替换-a

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17421766

复制

相似问题

问Scrapy管理动态爬行器EN