腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Scrapy
爬虫
python
我正在和
scrapy
一起做一个爬行项目。我在试着从legifrance.gouv.fr网站上获取法律。这是我的脚本: url = respons
浏览 2
修改于2016-03-09
得票数 0
1
回答
加速python
scrapy
爬虫
我目前正在用
Scrapy
编写职位空缺刮板,以解析约3M的职位空缺项目。现在我在适当的地方,当蜘蛛工作,并成功地抓取项目并将其存储到postgreesql中,但问题是它做起来相当慢。我的蜘蛛代码:import urllib.requestfrom ..items import JobItem name = "adzuna"
浏览 2
提问于2019-11-03
得票数 0
1
回答
构建了
Scrapy
爬虫
,但它不是跟随链接
我写了一个简单的
爬虫
来获取徒步旅行的链接。它似乎根本没有查看URL来抓取站点:from
scrapy
.spiders import Spider from oregon_hikes_scrapper.items
浏览 11
提问于2016-09-02
得票数 0
1
回答
Scrapy
Group
爬虫
试着刮掉一个Y!组和我可以从一个页面获取数据,但仅此而已。我有一些基本的规则,但它们显然是不正确的。有人已经解决这个问题了吗?name = "yahoo.com"start_urls = [] Rule(SgmlLink
浏览 0
提问于2011-03-23
得票数 0
回答已采纳
1
回答
如何限制
Scrapy
爬虫
的链接级别?
对于此示例代码: name = "quotes" start_urls = [
浏览 0
提问于2021-02-28
得票数 1
1
回答
scrapy
:
爬虫
的并行和顺序运行
我认为我需要链接延迟,文档中有一些明确的示例,但我不确定如何设置它以及一些并行运行的示例-当前的启动代码如下(每个爬行器都在它自己的外部文件中) from
scrapy
.utils.project importget_project_settings process
浏览 42
修改于2021-09-17
得票数 3
3
回答
如何让
Scrapy
爬虫
拒绝国家域名
例如,如果我只想抓取.com域from
scrapy
.contrib.spiders import CrawlSpider, Rule from
scrapy
.contrib.linkextractors.sgml
浏览 3
修改于2016-05-22
得票数 0
1
回答
如何将每个
Scrapy
爬虫
物品与另一个
Scrapy
爬虫
物品进行比较?
我需要一个解决方案来比较每个项目的SecondSpider与FirstSpider的所有项目。看看这段虚拟代码。 all_items = [] trs = response.xpath("table tr") item = SomeItem() yie
浏览 0
提问于2015-07-11
得票数 1
4
回答
在多个网站上使用一个
Scrapy
爬虫
我需要创建一个用户可配置的网络蜘蛛/
爬虫
,我正在考虑使用
Scrapy
。但是,我不能硬编码域和允许的URL regex:es --这将在GUI中配置。如何(尽可能简单地)使用
Scrapy
创建一个爬行器或一组爬行器,其中域和允许的URL regex:es是动态可配置的?例如,我将配置写到一个文件中,然后爬行器以某种方式读取它。
浏览 2
修改于2010-03-07
得票数 12
回答已采纳
1
回答
无法获得关键字python
scrapy
爬虫
search_string + '&FIELD1=&co1=AND&TERM2=&FIELD2=&d=PTXT' '''Incoming url start the
scrapy
crawle''' name = 'uspto' #allowed_domains = ['http:/
浏览 4
提问于2017-05-14
得票数 0
1
回答
在Klein/Twisted中运行多个
scrapy
爬虫
目前我正在做一个作为API运行的
爬虫
项目,因此我做了一些关于在HTTP服务器中运行
scrapy
的研究。为了简单起见,我选择了Python Klein,基本上遵循以下内容: https://github.com/betinacosta/
scrapy
-klein-tutorial/blob/master/README%5BEN-US%5D.md 目前,我的代码看起来像这样(Python 3.9): import json from klein impor
浏览 32
提问于2021-07-30
得票数 0
1
回答
scrapy
避免
爬虫
注销
我正在使用
scrapy
库来方便抓取网站。该页面有一个URL,该URL将注销用户并销毁会话。 如何确保
scrapy
在爬行时避免注销页面?
浏览 1
提问于2013-07-11
得票数 1
回答已采纳
2
回答
在
Scrapy
爬虫
完成爬行时运行代码
有没有办法让
Scrapy
在爬行完全完成后执行代码,以处理移动/清理数据?我确信这是微不足道的,但我的Google-fu似乎为了这个问题而离开了我。
浏览 0
修改于2020-10-13
得票数 8
2
回答
Scrapy
爬虫
没有跟随链接来获取新页面
我正在使用
Scrapy
+ splash来获取这些数据,然而,由于某些原因,这些链接没有被遵循。下面是我的爬行器的代码: import
scrapy
functionpage=0&pageOffBook=0&fourWayKey=GB00B6774699GBGBXAMSM&formName=frmRow&upToRow=-1" cla
浏览 15
修改于2019-11-22
得票数 2
1
回答
scrapy
爬虫
没有跟随下一个链接
我正在使用
scrapy
从意大利国家警察那里收集新闻。我的问题是,即使我有一个规则集来找到“下一步”或意大利语中的"Successiva“按钮并遵循该链接,但刮取器没有遵循”下一步“链接。from
scrapy
.spiders import Rule, CrawlSpiderfrom
scrapy
.selectorself, response): # for href in response.css('
浏览 0
修改于2015-11-10
得票数 2
1
回答
Python
Scrapy
爬虫
正在爬行url,但不返回任何内容
这是我使用
scrapy
的第一个项目,我是python的初学者。使用这个article,我爬行了一个url,但没有从中获得任何数据。
浏览 32
提问于2019-06-16
得票数 0
回答已采纳
1
回答
安排
scrapy
爬虫
每N分钟运行一次
我需要帮助来安排我的
爬虫
每N分钟运行一次。早些时候,我看到大多数人使用reactor.callLater和reactor.run来达到这个目的,但现在似乎没有可能使用这些功能了。deferred.addCallback(reactor.callLater, 5, run_crawl)reactor.run() 目前,我的
爬虫
程序是由
浏览 0
提问于2017-07-12
得票数 3
1
回答
如何在一个python脚本中调用2个
Scrapy
爬虫
?
我正在使用
Scrapy
CrawlSpider类来抓取电子商务网站的分类页面。问题是,大约5%的请求在5次重试后被拒绝,并且不会达到100%的已知类别。我的解决方法涉及到第二个爬行器(
scrapy
.Spider),它从数据库中获取丢失的已知URL,并简单地重新抓取它们。这样我就达到了100%的成绩。问题是,这是两个不同的
爬虫
,它们位于两个不同的python文件中,需要由cron作业分别触发。yield item name = 'recraw
浏览 1
提问于2021-08-07
得票数 1
1
回答
如何在
Scrapy
爬虫
中启动一个全新的请求?
但是,如果我重新启动我的
爬虫
,每次都会得到不同的sid,我只是不知道如何在不重新启动
爬虫
的情况下获得一个新的sid。谢谢!以下是我的当前代码: name = 'my_spider' allowed_domains = ['xxx.com']
浏览 0
提问于2018-11-26
得票数 0
回答已采纳
1
回答
即使在收集和解析链接时,
Scrapy
爬虫
也不跟踪它们。
即使我测试了提取的链接是有效的urls,我的
爬虫
不爬行额外的页面。我被困在这上面好几个小时了。我也不认为关于
Scrapy
的文档有那么大的帮助,因为它是以完美的文字卡片呈现的。有人能帮忙吗?# -*- coding: utf-8 -*-import loggingfrom
scrapy
.linkextractors import LinkExtractor from
scrapy<
浏览 4
修改于2016-06-17
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券