腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(88)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
使用.htaccess阻止Yandex、
百度
和MJ12bot
我厌倦了燕麦,
百度
和MJ12bot吃了我所有的带宽。他们甚至都不关心无用的robots.txt文件。BrowserMatchNoCase "yandex" botsBrowserMatchNoCase
浏览 0
提问于2016-02-26
得票数 4
回答已采纳
1
回答
在4.5框架中捕获.browser文件中的用户代理
value="www.example.com"/>返回对于Baidu.com用户代理: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://w
浏览 1
提问于2013-10-21
得票数 0
1
回答
刮伤的request.priority不起作用
但我的测试不是这样的:Python version: 3.7.13 name =wd=1111112022-07-26 16:16:15 [scrapy.core.engine] DEBUGwd=2222222022-07-26 16:1
浏览 3
提问于2022-07-26
得票数 0
1
回答
如何从另一个抓取蜘蛛开始
Spider
1爬行页面列表或整个网站并
分析
内容。
Spider
2使用Splash在谷歌上获取URL,并将该列表传递给
Spider
1。因此,无需
Spider
2调用即可使用
Spider
1对内容进行爬行和
分析
from scrapy.spiders import CrawlSpider name = "
浏览 7
提问于2017-07-25
得票数 3
回答已采纳
1
回答
如何将鸭嘴兽流量排除在谷歌
分析
4之外
我一直试图创建一个过滤器,以排除Duckduck Go和
百度
搜索引擎Bot流量从谷歌
分析
4我的网站之一。我无法为它创建一个过滤器。内部和开发人员的流量可以在GA4中过滤。
浏览 0
修改于2023-04-21
得票数 0
1
回答
为什么
百度
会疯狂地爬我的网站?
当我检查我的apache日志时,我可以看到
百度
在过去的2周里每天都在我的网站上爬行10次。123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ...+http://www.baidu.com/search&
浏览 0
修改于2013-07-15
得票数 12
回答已采纳
2
回答
如何阻止机器人重载我表现缓慢的web应用程序?
而主要应用程序是“服务器A")通过服务器将"bot流量“与”用户流量“分离开来,将提供更准确的服务器端
分析
的额外好处后端是jboss/tomcatapache (或mod_proxy)能否根据头转发请求(即用
百度
、googlebot、msnbot等将所有请求转发给Server
浏览 0
修改于2015-11-19
得票数 2
1
回答
当html有表情符号时,使用Scrapy (解析
百度
Tieba post的双面图(Lzl))无法得到正确的响应。
当我
分析
百度
Tieba的帖子时,我发现如果一个帖子的复核(中文名为“楼忠楼”(楼中楼),缩写为->lzl,我会在下面提到它时使用'lzl‘)有表情符号,Scrapy不会给我一个正确的回复。以下是我的核心代码:# filename: tieba_post_
spider
.py im
浏览 5
修改于2017-09-01
得票数 0
回答已采纳
1
回答
为什么刮破的爬虫停了?
09-23 09:59:07+0000 [scrapy] INFO: Scrapy 0.18.0 started (bot: crawler) 2013-09-23 09:59:08+0000 [
spider
] INFO: Crawled 0 pages (at 0 pages/min), scraped0 items (at 0 items/min) 2013-09-23 10:00:08+0000
浏览 2
修改于2013-09-25
得票数 4
1
回答
其中来自“错误:爬行器错误处理<GET...”在scrapy?
我很想知道这个异常是从哪里来的,以及我如何处理它: 2019-04-12 22:00:55 [scrapy.core.scraper] ERROR:
Spider
error processing <GET我查看了项目中的middlewares.py、settings.py等文件,没有找到任何写成logging.error或
spider
.logger.error的行。即使在内置方法def process_
spider
_exception(self, response, exception,
spider
):或def
浏览 13
修改于2019-04-14
得票数 0
回答已采纳
1
回答
使用scrapy以多种格式导出刮擦数据
但是,我也想对这些数据执行一些数据
分析
,所以以csv格式进行比较方便。要获得这两种格式的数据,我可以这样做scrapy
spider
-t csv -o data.csv 然而,这两次擦拭数据,我负担不起大量的数据
浏览 0
修改于2015-06-24
得票数 7
回答已采纳
3
回答
logstash :从结果中排除机器人
{ "os": "Other", "device": "
Spider
Slurp)“,但
百度
和雅虎的结果仍然出现在ES的响应中。
浏览 7
提问于2016-10-11
得票数 0
回答已采纳
1
回答
如何抓取爬行工作:哪个类是实例,哪个方法被调用?
__name__ == "__main__": print(myInstance.myFun(9)) name = "quotes" def start_requests(self):mySpider =
浏览 1
提问于2017-09-01
得票数 0
回答已采纳
1
回答
从多个进程中合并项
我有个很粗糙的剧本 class test_
spider
(XMLFeedSpider): start_urls=['https://www.example.com'] custom_settings':response.xpath('/@id').extract_first(
浏览 0
提问于2019-01-11
得票数 1
回答已采纳
3
回答
我有一个txt文件。如何获取字典键值并打印它们出现在其中的文本行?
这里是一个示例输出:
分析
什么文件: itsy_bitsy_
spider
.txt 文件itsy_bitsy_
spider
.txt itsy的一致性:总数:2行:1: ITSY Bitsy蜘蛛爬上水龙:4:
浏览 6
修改于2011-11-01
得票数 2
1
回答
刮除:为每只蜘蛛运行不同设置的蜘蛛
在过去的几天里,我在我的Scrapy/twisted中遇到了麻烦,因为它应该运行不同的蜘蛛并
分析
它们的输出。defer, reactorfrom scrapy.crawler import CrawlerRunner process = CrawlerRunner(
spider
_settings[1]) #Not sure if this is how its supposed to be used fo
浏览 2
提问于2020-06-07
得票数 3
回答已采纳
1
回答
hitCallback -如果中国防火墙阻止谷歌
我们使用通用
分析
。非常感谢你的帮助!
浏览 8
提问于2013-11-06
得票数 0
7
回答
寻找用于解析access.log文件的PHP类
更好的是,我喜欢一个PHP类,它可以简单地
分析
以下代码行(作为示例):有什么想法吗?
浏览 0
提问于2011-01-12
得票数 12
1
回答
有没有一种方法可以从数据帧中提取构建数据帧的代码?
4, 8, 0],'num_specimen_seen': [10, 2, 1, 8]},falcon 2 2 10
spider
num_specimen_s
浏览 13
提问于2019-02-17
得票数 0
回答已采纳
1
回答
擦伤请求回调计数小于请求计数
我想用刮擦法来
分析
诗歌。我通过以下步骤进行
分析
: 2016-10-26 16:15:54 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'poem.spiders', '
SPIDER
_MODULES, 'scrapy.downloader
浏览 1
修改于2016-10-26
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
点击加载更多
领券