搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Scrapy爬虫python

我正在和scrapy一起做一个爬行项目。我在试着从legifrance.gouv.fr网站上获取法律。这是我的脚本： url = respons

浏览 2修改于2016-03-09得票数 0

1回答

加速python scrapy爬虫

我目前正在用Scrapy编写职位空缺刮板，以解析约3M的职位空缺项目。现在我在适当的地方，当蜘蛛工作，并成功地抓取项目并将其存储到postgreesql中，但问题是它做起来相当慢。我的蜘蛛代码：import urllib.requestfrom ..items import JobItem name = "adzuna"

浏览 2提问于2019-11-03得票数 0

1回答

构建了Scrapy爬虫，但它不是跟随链接

我写了一个简单的爬虫来获取徒步旅行的链接。它似乎根本没有查看URL来抓取站点：from scrapy.spiders import Spider from oregon_hikes_scrapper.items

浏览 11提问于2016-09-02得票数 0

1回答

Scrapy Group爬虫

试着刮掉一个Y！组和我可以从一个页面获取数据，但仅此而已。我有一些基本的规则，但它们显然是不正确的。有人已经解决这个问题了吗？name = "yahoo.com"start_urls = [] Rule(SgmlLink

浏览 0提问于2011-03-23得票数 0

回答已采纳

1回答

如何限制Scrapy爬虫的链接级别？

对于此示例代码： name = "quotes" start_urls = [

浏览 0提问于2021-02-28得票数 1

1回答

scrapy :爬虫的并行和顺序运行

我认为我需要链接延迟，文档中有一些明确的示例，但我不确定如何设置它以及一些并行运行的示例-当前的启动代码如下(每个爬行器都在它自己的外部文件中) from scrapy.utils.project importget_project_settings process

浏览 42修改于2021-09-17得票数 3

3回答

如何让Scrapy爬虫拒绝国家域名

例如，如果我只想抓取.com域from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml

浏览 3修改于2016-05-22得票数 0

1回答

如何将每个Scrapy爬虫物品与另一个Scrapy爬虫物品进行比较？

我需要一个解决方案来比较每个项目的SecondSpider与FirstSpider的所有项目。看看这段虚拟代码。 all_items = [] trs = response.xpath("table tr") item = SomeItem() yie

浏览 0提问于2015-07-11得票数 1

4回答

在多个网站上使用一个Scrapy爬虫

我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用Scrapy。但是，我不能硬编码域和允许的URL regex:es --这将在GUI中配置。如何(尽可能简单地)使用Scrapy创建一个爬行器或一组爬行器，其中域和允许的URL regex:es是动态可配置的？例如，我将配置写到一个文件中，然后爬行器以某种方式读取它。

浏览 2修改于2010-03-07得票数 12

回答已采纳

1回答

无法获得关键字python scrapy爬虫

search_string + '&FIELD1=&co1=AND&TERM2=&FIELD2=&d=PTXT' '''Incoming url start the scrapycrawle''' name = 'uspto' #allowed_domains = ['http:/&#

浏览 4提问于2017-05-14得票数 0

1回答

目前我正在做一个作为API运行的爬虫项目，因此我做了一些关于在HTTP服务器中运行scrapy的研究。为了简单起见，我选择了Python Klein，基本上遵循以下内容： https://github.com/betinacosta/scrapy-klein-tutorial/blob/master/README%5BEN-US%5D.md 目前，我的代码看起来像这样(Python 3.9)： import json from klein impor

浏览 32提问于2021-07-30得票数 0

1回答

scrapy避免爬虫注销

我正在使用scrapy库来方便抓取网站。该页面有一个URL，该URL将注销用户并销毁会话。如何确保scrapy在爬行时避免注销页面？

浏览 1提问于2013-07-11得票数 1

回答已采纳

2回答

在Scrapy爬虫完成爬行时运行代码

有没有办法让Scrapy在爬行完全完成后执行代码，以处理移动/清理数据？我确信这是微不足道的，但我的Google-fu似乎为了这个问题而离开了我。

浏览 0修改于2020-10-13得票数 8

2回答

Scrapy爬虫没有跟随链接来获取新页面

我正在使用Scrapy + splash来获取这些数据，然而，由于某些原因，这些链接没有被遵循。下面是我的爬行器的代码： import scrapy functionpage=0&pageOffBook=0&fourWayKey=GB00B6774699GBGBXAMSM&formName=frmRow&upToRow=-1" cla

浏览 15修改于2019-11-22得票数 2

1回答

scrapy爬虫没有跟随下一个链接

我正在使用scrapy从意大利国家警察那里收集新闻。我的问题是，即使我有一个规则集来找到“下一步”或意大利语中的"Successiva“按钮并遵循该链接，但刮取器没有遵循”下一步“链接。from scrapy.spiders import Rule, CrawlSpiderfrom scrapy.selectorself, response): # for href in response.css('

浏览 0修改于2015-11-10得票数 2

1回答

Python Scrapy爬虫正在爬行url，但不返回任何内容

这是我使用scrapy的第一个项目，我是python的初学者。使用这个article，我爬行了一个url，但没有从中获得任何数据。

浏览 32提问于2019-06-16得票数 0

回答已采纳

1回答

安排scrapy爬虫每N分钟运行一次

我需要帮助来安排我的爬虫每N分钟运行一次。早些时候，我看到大多数人使用reactor.callLater和reactor.run来达到这个目的，但现在似乎没有可能使用这些功能了。deferred.addCallback(reactor.callLater, 5, run_crawl)reactor.run() 目前，我的爬虫程序是由

浏览 0提问于2017-07-12得票数 3

1回答

如何在一个python脚本中调用2个Scrapy爬虫？

我正在使用Scrapy CrawlSpider类来抓取电子商务网站的分类页面。问题是，大约5%的请求在5次重试后被拒绝，并且不会达到100%的已知类别。我的解决方法涉及到第二个爬行器(scrapy.Spider)，它从数据库中获取丢失的已知URL，并简单地重新抓取它们。这样我就达到了100%的成绩。问题是，这是两个不同的爬虫，它们位于两个不同的python文件中，需要由cron作业分别触发。yield item name = 'recraw

浏览 1提问于2021-08-07得票数 1

1回答

如何在Scrapy爬虫中启动一个全新的请求？

但是，如果我重新启动我的爬虫，每次都会得到不同的sid，我只是不知道如何在不重新启动爬虫的情况下获得一个新的sid。谢谢!以下是我的当前代码： name = 'my_spider' allowed_domains = ['xxx.com']

浏览 0提问于2018-11-26得票数 0

回答已采纳

1回答

即使在收集和解析链接时，Scrapy爬虫也不跟踪它们。

即使我测试了提取的链接是有效的urls，我的爬虫不爬行额外的页面。我被困在这上面好几个小时了。我也不认为关于Scrapy的文档有那么大的帮助，因为它是以完美的文字卡片呈现的。有人能帮忙吗？# -*- coding: utf-8 -*-import loggingfromscrapy.linkextractors import LinkExtractor from scrapy<

浏览 4修改于2016-06-17得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Scrapy爬虫python

加速python scrapy爬虫

构建了Scrapy爬虫，但它不是跟随链接

Scrapy Group爬虫

如何限制Scrapy爬虫的链接级别？

scrapy :爬虫的并行和顺序运行

如何让Scrapy爬虫拒绝国家域名

如何将每个Scrapy爬虫物品与另一个Scrapy爬虫物品进行比较？

在多个网站上使用一个Scrapy爬虫

无法获得关键字python scrapy爬虫

在Klein/Twisted中运行多个scrapy爬虫

scrapy避免爬虫注销

在Scrapy爬虫完成爬行时运行代码

Scrapy爬虫没有跟随链接来获取新页面

scrapy爬虫没有跟随下一个链接

Python Scrapy爬虫正在爬行url，但不返回任何内容

安排scrapy爬虫每N分钟运行一次

如何在一个python脚本中调用2个Scrapy爬虫？

如何在Scrapy爬虫中启动一个全新的请求？

即使在收集和解析链接时，Scrapy爬虫也不跟踪它们。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐