腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
抓取爬行
蜘蛛
多个
查询
我试图查找电子邮件in,我有一个列表,我想一个接一个地传递多个搜索
查询
,但是当我尝试使用列表显示我和缩进错误时,有人能帮我解决这个问题吗?
浏览 9
修改于2022-10-21
得票数 0
2
回答
按标题对DBpedia的健壮搜索
我需要编写一个SPARQL
查询
从dbpedia获得电影。我编写了几乎所有的
查询
,但我有以下问题: 我想要一个sparql
查询
,让我找到相同的维基百科资源按标题搜索 此外,是否有办法也得到每一个结果的“相关性”?
浏览 4
修改于2012-12-07
得票数 6
5
回答
如何忽略SQL中的符号(如
我有一个具有如下SQL
查询
的搜索模块:当我搜索关键字(例如“
蜘蛛
侠”)时,它返回的不是找到,但当我搜索“
蜘蛛
侠”时,它会返回我的内容( MySQL中的原始行是“
蜘蛛
侠”)。,:,同时返回“
蜘蛛
侠”和“
蜘蛛
侠”关键字的内容?
浏览 4
修改于2017-11-02
得票数 6
回答已采纳
1
回答
Elasticsearch 6.2 -
查询
中有空格和没有空格的
查询
字符串问题
我有一个关于ELASTICSEARCH 6.2
查询
的问题。default_operator": "AND", "analyze_wildcard":true, "query": "spiderman" } }我尝试了很多标记器和分析
浏览 0
提问于2018-03-31
得票数 0
1
回答
管道擦伤原因
现在我试着用db写一张带有
蜘蛛
关闭原因的记录。当我引发CloseSpider异常时,我可以在引发之前生成特定的项(并将记录保存到db)。但是如果
蜘蛛
以“完成”结束,我就不能做同样的事情。在spider_closed内部,将一些
蜘蛛
变量设置为推理值,然后尝试在管道的close_spider方法中读取它。这里的问题是管道的close_spider在
蜘蛛
的spider_closed之前调用。此外,在管道的close_spider签名中也没有理由使用param : close_spider(self,spider) 我现在有一
浏览 3
修改于2017-08-09
得票数 3
1
回答
Azure中的表
查询
表
查询
期间的筛选字符串如下所示.and RowKey ge '{1}' and蝙蝠侠 RowKey ge 's' and Rowkey le 't' 不过,我
浏览 3
提问于2015-06-26
得票数 0
回答已采纳
1
回答
如何在scrapy python中动态创建带有
蜘蛛
名的csv文件
,我需要通过管道创建一个csv文件,例如,使用这个
蜘蛛
名。spider1.csv,spider2.csv,spider3.csv and so on (
蜘蛛
不受限制,它们可能更多)>>根据
蜘蛛
的数量和
蜘蛛
的名称,我想创建csv文件这里我有3个
蜘蛛
,我想一次运行所有3个
蜘蛛
(使用scrapyd),当我运行所有3个
蜘蛛
浏览 3
修改于2014-03-06
得票数 2
1
回答
如何使start_url从消息队列中删除?
我正在构建一个刮刮的项目,在其中我有多个
蜘蛛
(每个域一只
蜘蛛
)。现在,要抓取的urls动态地来自给定
查询
的用户。因此,基本上我不需要做广泛的爬行,甚至跟随链接。我查过了 用户->
查询
-> url从abc.com ->abc-
蜘蛛
-> url from xyz.c
浏览 2
修改于2014-09-22
得票数 6
回答已采纳
1
回答
在另一个
蜘蛛
上解析页面后调用另一个
蜘蛛
正如您可能知道的,蒸汽有一个链接,您可以在其中访问游戏的所有评论,例如:您可以忽略snr和browsefilter
查询
参数。因此,我现在所做的基本上是刮除所有游戏页面,并将每个游戏的评论存储在txt文件中,然后作为参数传递给第二个
蜘蛛
。但我不喜欢这样,因为它迫使我做两个步骤的过程,而且,我还需要将第二个
蜘蛛
的结果映射到第一个
蜘蛛
的结果(这个评论属于这个游戏,等等)。所以我的问题是: 是否最好将游戏页面(以及包含所有评论的URL )的抓取的结果发送给第二个
蜘蛛
,或者至少将URL发送给第二个
蜘蛛
浏览 4
修改于2021-05-14
得票数 1
1
回答
MySQL选材中的瓶颈问题
它来自中间层的select
查询
。信息:爬行4页(0页/分钟),刮4项(2项/分钟) 我正在使用CrawlerProcess:
蜘蛛
越多,爬行页面/分钟就越少。示例:
浏览 1
修改于2017-05-03
得票数 0
回答已采纳
2
回答
Mysql的名称顺序
i.e名称
蜘蛛
侠蝙蝠侠穴居人海曼海曼
蜘蛛
侠蝙蝠侠穴居人现在,我希望beginning.What的Heman和Superman是适合这一点的Mysql
查询
。
浏览 1
提问于2012-07-18
得票数 0
1
回答
Scrapy可以用作实时包装吗?
为了澄清我对“包装器”一词的定义,请允许我描述一下我的情况.我希望使用scrapy来编写一个解决方案,允许用户在一个网站上执行搜索
查询
,而这个搜索
查询
反过来又会实时调用一只刮刮
蜘蛛
,在该
蜘蛛
被告知的范围内: 只检索返回
查询
的实际html结果,方法是通过指定唯一的结果集容器类和/或xpath来提取结果html内容。我应该指出,我对大批量爬行的抓取
蜘蛛
很熟悉,但我不太熟悉用它来构建一个实时类型的“包装器”的前景或可行性
浏览 3
提问于2013-08-20
得票数 2
1
回答
在每只
蜘蛛
的基础上刮伤DupeFilter?
我目前有一个有相当多
蜘蛛
的项目,其中大约一半需要一些自定义规则来过滤重复的请求。这就是为什么我对RFPDupeFilter类进行了扩展,为每个需要它的
蜘蛛
提供了自定义规则。我的自定义dupe过滤器检查请求url是否来自需要自定义筛选的站点,并清除url (删除
查询
参数、缩短路径、提取唯一部分等),以便所有相同页面的指纹相同。有没有一种方法可以创建过滤规则,即“清除”
蜘蛛
内部的urls?对我来说,理想的方法是扩展Spider类并定义一个clean_url方法,默认情况下它只返回请求url,并在需要自定义的
蜘蛛</em
浏览 2
提问于2014-08-07
得票数 3
回答已采纳
2
回答
无法列出企业管理员的所有成员
当我在DSA.MSC GUI工具中查看时,我看到这样的东西没有嵌套:BillSueSpiderman Get-ADgroup 'enterprise admins' -properties members | select -Expandproperties为
浏览 0
修改于2018-03-08
得票数 0
回答已采纳
1
回答
如何从使用javascript的站点获取数据?
我想要的是
查询
metallum,以获得包含x字的简单歌曲列表,比如
蜘蛛
,所以浏览器的
查询
将是https://www.metal-archives.com/search?
浏览 0
提问于2021-11-08
得票数 0
2
回答
抓取
蜘蛛
的管理框架
我有一个项目,在其中我已经实施了数以百计的刮除
蜘蛛
。现在,我遇到了以下问题: 我研究过scrapinghub/zyte,但不确定它是否适合我们的目的,因为我们需要
浏览 10
修改于2021-02-10
得票数 0
2
回答
Prolog中的否定问题
我在编写要添加以下事实的知识库时遇到了问题:spider(X):- \+ (mammal(X)). 但是,当我
查询
(mammal(X))时,它会给出错误吗?
浏览 1
修改于2015-01-05
得票数 1
1
回答
如何从pipelines.py访问
蜘蛛
类中的变量参数
我有3个
蜘蛛
文件和类。并将项目信息保存在csv文件中,该文件具有不同的文件名、被告、
查询
条件的可变参数。为此,我需要访问
蜘蛛
类参数。 如何访问
蜘蛛
类的参数?
浏览 3
修改于2019-05-22
得票数 0
1
回答
从
蜘蛛
中排除.js和.css文件
*\\Q.js\\E]" } /JSON/spider/view/fullResults/?
浏览 1
提问于2016-09-19
得票数 1
1
回答
用Anaconda运行抓取
蜘蛛
你好,我正在努力完成在以下网站上找到的教程: 文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py",第43行,在load KeyError(“
蜘蛛
未找到:{}".format(spider_name)) KeyError:‘
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券