文章/答案/技术大牛

发布

社区首页 >问答首页 >使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

问使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？
EN

Stack Overflow用户

提问于 2019-04-29 17:44:52

回答 2查看 49关注 0票数 0

我有一份大概的清单。52个网站，这导致大约。150个我需要抓取的网页。基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。

根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。在积极的一面，我注意到每个网站的网页在其网站结构中都有一些共性。我的百万美元的问题，有没有一个单一的技术或单一的网络爬虫，我可以用来抓取这些网站？我已经知道我想要的信息，这些网站很少在其网站结构方面进行更新，而且大多数网站都有需要下载的文档。

或者，有没有更好的解决方案，可以减少我需要构建的网络爬虫的数量？此外，这些网络爬虫将仅用于下载我针对的网站的新信息。

web-crawler

python

scrapy

回答 2

Stack Overflow用户

发布于 2019-04-30 18:51:56

…我开始构建每个网页的爬虫，这开始变得难以完成和维护…很明显，这些网站都有自己的结构。…这些站点很少根据其web结构…进行更新

如果网站有不同的结构，拥有单独的爬虫是有意义的，而且从长远来看，应该会使维护变得更容易。

您说完成新的爬行器(我假设您的意思是开发它们，而不是爬行或其他东西)变得越来越困难，然而，如果它们与现有的爬行器相似，您可以简单地复制和粘贴最相似的现有爬行器，并且只进行必要的更改。

维护应该是最容易的独立蜘蛛为不同的网站。如果单个网站发生更改，您可以修复该网站的爬行器。如果您有多个网站的爬虫，并且只有一个网站发生更改，则需要确保您对修改后的网站所做的更改不会破坏其他网站，这可能是一场噩梦。

此外，既然你说网站结构不会经常改变，那么维护通常不应该那么困难。

如果您注意到您正在重复大量代码，您也许能够将一些共享代码提取到爬行器中间件、下载器中间件、扩展、项目加载器，甚至是由两个或更多爬行器共享的基础爬行器类中。但我不会尝试使用一个单独的Spider子类来抓取多个可能独立发展的不同网站。

票数 0

Stack Overflow用户

发布于 2019-04-30 19:33:07

我建议你抓取特定的标签，比如body，h1，h2，h3，h4，h5，h6，p和...对于每个链接。您可以收集所有p标记并将其附加到特定链接中。它可以用于每个您想要抓取的标签。此外，您还可以将标记的相关链接附加到您的数据库。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55900736

复制

相似问题

问使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？
EN