首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用单个Web爬虫以预定义的格式抓取多个带有附件的网站?

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站?
EN

Stack Overflow用户
提问于 2019-04-29 17:44:52
回答 2查看 49关注 0票数 0

我有一份大概的清单。52个网站,这导致大约。150个我需要抓取的网页。基于我的无知和缺乏研究,我开始构建每个网页的爬虫,这开始变得难以完成和维护。

根据我到目前为止的分析,我已经知道我想在每个网页上抓取什么信息,很明显,这些网站都有自己的结构。在积极的一面,我注意到每个网站的网页在其网站结构中都有一些共性。我的百万美元的问题,有没有一个单一的技术或单一的网络爬虫,我可以用来抓取这些网站?我已经知道我想要的信息,这些网站很少在其网站结构方面进行更新,而且大多数网站都有需要下载的文档。

或者,有没有更好的解决方案,可以减少我需要构建的网络爬虫的数量?此外,这些网络爬虫将仅用于下载我针对的网站的新信息。

EN

回答 2

Stack Overflow用户

发布于 2019-04-30 18:51:56

…我开始构建每个网页的爬虫,这开始变得难以完成和维护…很明显,这些网站都有自己的结构。…这些站点很少根据其web结构…进行更新

如果网站有不同的结构,拥有单独的爬虫是有意义的,而且从长远来看,应该会使维护变得更容易。

您说完成新的爬行器(我假设您的意思是开发它们,而不是爬行或其他东西)变得越来越困难,然而,如果它们与现有的爬行器相似,您可以简单地复制和粘贴最相似的现有爬行器,并且只进行必要的更改。

维护应该是最容易的独立蜘蛛为不同的网站。如果单个网站发生更改,您可以修复该网站的爬行器。如果您有多个网站的爬虫,并且只有一个网站发生更改,则需要确保您对修改后的网站所做的更改不会破坏其他网站,这可能是一场噩梦。

此外,既然你说网站结构不会经常改变,那么维护通常不应该那么困难。

如果您注意到您正在重复大量代码,您也许能够将一些共享代码提取到爬行器中间件、下载器中间件、扩展、项目加载器,甚至是由两个或更多爬行器共享的基础爬行器类中。但我不会尝试使用一个单独的Spider子类来抓取多个可能独立发展的不同网站。

票数 0
EN

Stack Overflow用户

发布于 2019-04-30 19:33:07

我建议你抓取特定的标签,比如bodyh1h2h3h4h5h6p和...对于每个链接。您可以收集所有p标记并将其附加到特定链接中。它可以用于每个您想要抓取的标签。此外,您还可以将标记的相关链接附加到您的数据库。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55900736

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档