搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

抓取爬行蜘蛛多个查询

我试图查找电子邮件in，我有一个列表，我想一个接一个地传递多个搜索查询，但是当我尝试使用列表显示我和缩进错误时，有人能帮我解决这个问题吗？

浏览 9修改于2022-10-21得票数 0

2回答

按标题对DBpedia的健壮搜索

我需要编写一个SPARQL查询从dbpedia获得电影。我编写了几乎所有的查询，但我有以下问题：我想要一个sparql查询，让我找到相同的维基百科资源按标题搜索此外，是否有办法也得到每一个结果的“相关性”？

浏览 4修改于2012-12-07得票数 6

5回答

如何忽略SQL中的符号(如

我有一个具有如下SQL查询的搜索模块：当我搜索关键字(例如“蜘蛛侠”)时，它返回的不是找到，但当我搜索“蜘蛛侠”时，它会返回我的内容( MySQL中的原始行是“蜘蛛侠”)。，:，同时返回“蜘蛛侠”和“蜘蛛侠”关键字的内容？

浏览 4修改于2017-11-02得票数 6

回答已采纳

1回答

Elasticsearch 6.2 -查询中有空格和没有空格的查询字符串问题

我有一个关于ELASTICSEARCH 6.2查询的问题。default_operator": "AND", "analyze_wildcard":true, "query": "spiderman" } }我尝试了很多标记器和分析

浏览 0提问于2018-03-31得票数 0

1回答

现在我试着用db写一张带有蜘蛛关闭原因的记录。当我引发CloseSpider异常时，我可以在引发之前生成特定的项(并将记录保存到db)。但是如果蜘蛛以“完成”结束，我就不能做同样的事情。在spider_closed内部，将一些蜘蛛变量设置为推理值，然后尝试在管道的close_spider方法中读取它。这里的问题是管道的close_spider在蜘蛛的spider_closed之前调用。此外，在管道的close_spider签名中也没有理由使用param : close_spider(self，spider) 我现在有一

浏览 3修改于2017-08-09得票数 3

1回答

Azure中的表查询

表查询期间的筛选字符串如下所示.and RowKey ge '{1}' and蝙蝠侠 RowKey ge 's' and Rowkey le 't' 不过，我

浏览 3提问于2015-06-26得票数 0

回答已采纳

1回答

如何在scrapy python中动态创建带有蜘蛛名的csv文件

，我需要通过管道创建一个csv文件，例如，使用这个蜘蛛名。spider1.csv,spider2.csv,spider3.csv and so on (蜘蛛不受限制，它们可能更多)>>根据蜘蛛的数量和蜘蛛的名称，我想创建csv文件这里我有3个蜘蛛，我想一次运行所有3个蜘蛛(使用scrapyd)，当我运行所有3个蜘蛛

浏览 3修改于2014-03-06得票数 2

1回答

如何使start_url从消息队列中删除？

我正在构建一个刮刮的项目，在其中我有多个蜘蛛(每个域一只蜘蛛)。现在，要抓取的urls动态地来自给定查询的用户。因此，基本上我不需要做广泛的爬行，甚至跟随链接。我查过了用户->查询-> url从abc.com ->abc-蜘蛛 -> url from xyz.c

浏览 2修改于2014-09-22得票数 6

回答已采纳

1回答

在另一个蜘蛛上解析页面后调用另一个蜘蛛

正如您可能知道的，蒸汽有一个链接，您可以在其中访问游戏的所有评论，例如：您可以忽略snr和browsefilter查询参数。因此，我现在所做的基本上是刮除所有游戏页面，并将每个游戏的评论存储在txt文件中，然后作为参数传递给第二个蜘蛛。但我不喜欢这样，因为它迫使我做两个步骤的过程，而且，我还需要将第二个蜘蛛的结果映射到第一个蜘蛛的结果(这个评论属于这个游戏，等等)。所以我的问题是：是否最好将游戏页面(以及包含所有评论的URL )的抓取的结果发送给第二个蜘蛛，或者至少将URL发送给第二个蜘蛛

浏览 4修改于2021-05-14得票数 1

1回答

MySQL选材中的瓶颈问题

它来自中间层的select查询。信息:爬行4页(0页/分钟)，刮4项(2项/分钟) 我正在使用CrawlerProcess:蜘蛛越多，爬行页面/分钟就越少。示例：

浏览 1修改于2017-05-03得票数 0

回答已采纳

2回答

Mysql的名称顺序

i.e名称蜘蛛侠蝙蝠侠穴居人海曼海曼蜘蛛侠蝙蝠侠穴居人现在，我希望beginning.What的Heman和Superman是适合这一点的Mysql查询。

浏览 1提问于2012-07-18得票数 0

1回答

Scrapy可以用作实时包装吗？

为了澄清我对“包装器”一词的定义，请允许我描述一下我的情况.我希望使用scrapy来编写一个解决方案，允许用户在一个网站上执行搜索查询，而这个搜索查询反过来又会实时调用一只刮刮蜘蛛，在该蜘蛛被告知的范围内：只检索返回查询的实际html结果，方法是通过指定唯一的结果集容器类和/或xpath来提取结果html内容。我应该指出，我对大批量爬行的抓取蜘蛛很熟悉，但我不太熟悉用它来构建一个实时类型的“包装器”的前景或可行性

浏览 3提问于2013-08-20得票数 2

1回答

在每只蜘蛛的基础上刮伤DupeFilter？

我目前有一个有相当多蜘蛛的项目，其中大约一半需要一些自定义规则来过滤重复的请求。这就是为什么我对RFPDupeFilter类进行了扩展，为每个需要它的蜘蛛提供了自定义规则。我的自定义dupe过滤器检查请求url是否来自需要自定义筛选的站点，并清除url (删除查询参数、缩短路径、提取唯一部分等)，以便所有相同页面的指纹相同。有没有一种方法可以创建过滤规则，即“清除”蜘蛛内部的urls？对我来说，理想的方法是扩展Spider类并定义一个clean_url方法，默认情况下它只返回请求url，并在需要自定义的蜘蛛</em

浏览 2提问于2014-08-07得票数 3

回答已采纳

2回答

无法列出企业管理员的所有成员

当我在DSA.MSC GUI工具中查看时，我看到这样的东西没有嵌套：BillSueSpiderman Get-ADgroup 'enterprise admins' -properties members | select -Expandproperties为

浏览 0修改于2018-03-08得票数 0

回答已采纳

1回答

如何从使用javascript的站点获取数据？

我想要的是查询metallum，以获得包含x字的简单歌曲列表，比如蜘蛛，所以浏览器的查询将是https://www.metal-archives.com/search?

浏览 0提问于2021-11-08得票数 0

2回答

抓取蜘蛛的管理框架

我有一个项目，在其中我已经实施了数以百计的刮除蜘蛛。现在，我遇到了以下问题：我研究过scrapinghub/zyte，但不确定它是否适合我们的目的，因为我们需要

浏览 10修改于2021-02-10得票数 0

2回答

Prolog中的否定问题

我在编写要添加以下事实的知识库时遇到了问题：spider(X):- \+ (mammal(X)). 但是，当我查询(mammal(X))时，它会给出错误吗？

浏览 1修改于2015-01-05得票数 1

1回答

如何从pipelines.py访问蜘蛛类中的变量参数

我有3个蜘蛛文件和类。并将项目信息保存在csv文件中，该文件具有不同的文件名、被告、查询条件的可变参数。为此，我需要访问蜘蛛类参数。如何访问蜘蛛类的参数？

浏览 3修改于2019-05-22得票数 0

1回答

从蜘蛛中排除.js和.css文件

*\\Q.js\\E]" } /JSON/spider/view/fullResults/?

浏览 1提问于2016-09-19得票数 1

1回答

用Anaconda运行抓取蜘蛛

你好，我正在努力完成在以下网站上找到的教程：文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py"，第43行，在load KeyError(“蜘蛛未找到：{}".format(spider_name)) KeyError：‘

浏览 5提问于2016-10-06得票数 2

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

抓取爬行蜘蛛多个查询

按标题对DBpedia的健壮搜索

如何忽略SQL中的符号(如

Elasticsearch 6.2 -查询中有空格和没有空格的查询字符串问题

管道擦伤原因

Azure中的表查询

如何在scrapy python中动态创建带有蜘蛛名的csv文件

如何使start_url从消息队列中删除？

在另一个蜘蛛上解析页面后调用另一个蜘蛛

MySQL选材中的瓶颈问题

Mysql的名称顺序

Scrapy可以用作实时包装吗？

在每只蜘蛛的基础上刮伤DupeFilter？

无法列出企业管理员的所有成员

如何从使用javascript的站点获取数据？

抓取蜘蛛的管理框架

Prolog中的否定问题

如何从pipelines.py访问蜘蛛类中的变量参数

从蜘蛛中排除.js和.css文件

用Anaconda运行抓取蜘蛛

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐