腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
使用.htaccess阻止Yandex、
百度
和MJ12bot
我厌倦了燕麦,
百度
和MJ12bot吃了我所有的带宽。他们甚至都不关心无用的robots.txt文件。BrowserMatchNoCase "yandex" botsBrowserMatchNoCase
浏览 0
提问于2016-02-26
得票数 4
回答已采纳
1
回答
如何从另一个抓取蜘蛛开始
Spider
1爬行页面列表或整个网站并
分析
内容。
Spider
2
使用Splash在谷歌上获取URL,并将该列表传递给
Spider
1。因此,无需
Spider
2
调用即可使用
Spider
1对内容进行爬行和
分析
from scrapy.spiders import CrawlSpiderfrom scrapy.ut
浏览 7
提问于2017-07-25
得票数 3
回答已采纳
1
回答
在4.5框架中捕获.browser文件中的用户代理
value="www.example.com"/>返回对于Baidu.com用户代理: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://w
浏览 1
提问于2013-10-21
得票数 0
1
回答
刮伤的request.priority不起作用
但我的测试不是这样的:Python version: 3.7.13 name =wd=1111112022-07-26 16:16:15 [scrapy.core.engine] DEBUGwd=2222222022-07-26 16:1
浏览 3
提问于2022-07-26
得票数 0
2
回答
改变亚行港口
我想改变这个端口,因为我的端口5037是使用程序
百度
亚行组件(
百度
安卓商店从
百度
PC更快使用相同端口5037)。-netstat -ano |findstr "5037"taskkill /pid PORT /f /t
2
.Have tried using program process explorer from 并试图杀死
百度</e
浏览 11
修改于2017-05-23
得票数 1
回答已采纳
1
回答
百度
站点地图文件爬行失败
我已经向中文
百度
提交了我的网站的站点地图文件。1)使用gzip压缩的 16 sitemap文件,每个文件小于10 16,包含更少的50K url。
2
)带有指向上述站点地图gzipped文件的链接的站点地图索引。我看到的是
百度
非常奇怪的行为--它将我的一些站点地图文件标记为Failed (抓取失败),而其他文件似乎是经过处理的(正常--正常)。除了
百度
留言“失败的爬虫”(抓取失败)之外,我找不到我的站点地图有什么问题。谁能提出什么
浏览 3
提问于2016-10-18
得票数 0
回答已采纳
1
回答
为什么
百度
会疯狂地爬我的网站?
当我检查我的apache日志时,我可以看到
百度
在过去的
2
周里每天都在我的网站上爬行10次。123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ...+http://www.baidu.com
浏览 0
修改于2013-07-15
得票数 12
回答已采纳
1
回答
如何将鸭嘴兽流量排除在谷歌
分析
4之外
我一直试图创建一个过滤器,以排除Duckduck Go和
百度
搜索引擎Bot流量从谷歌
分析
4我的网站之一。我无法为它创建一个过滤器。内部和开发人员的流量可以在GA4中过滤。
浏览 0
修改于2023-04-21
得票数 0
0
回答
运行不了,了那错?
jquery
测试套件Resource 业务关键字.txt baidu02业务关键字Resource 基础关键字.txt
百度
搜索 点击按钮 关闭浏览器*** Settings
浏览 168
提问于2021-06-24
1
回答
从多个进程中合并项
我有个很粗糙的剧本 class test_
spider
(XMLFeedSpider): start_urls=['https://www.example.com'] custom_settingsRequest('https://www.example.com/'
浏览 0
提问于2019-01-11
得票数 1
回答已采纳
1
回答
如何抓取爬行工作:哪个类是实例,哪个方法被调用?
__name__ == "__main__": print(myInstance.myFun(9)) 在scrapy1.4手册中,quotes_
spider
.py如下所示。import scrapy name = "quotes"
浏览 1
提问于2017-09-01
得票数 0
回答已采纳
1
回答
当html有表情符号时,使用Scrapy (解析
百度
Tieba post的双面图(Lzl))无法得到正确的响应。
当我
分析
百度
Tieba的帖子时,我发现如果一个帖子的复核(中文名为“楼忠楼”(楼中楼),缩写为->lzl,我会在下面提到它时使用'lzl‘)有表情符号,Scrapy不会给我一个正确的回复。以下是我的核心代码:# filename: tieba_post_
spider
.py im
浏览 5
修改于2017-09-01
得票数 0
回答已采纳
2
回答
如何在当前位置设置标记,改变
百度
地图中摄像机的位置(目标c)
我使用pod 'BaiduMapKit在代码中配置
百度
地图,并在视图中显示地图。如何设置一个标记在我目前的位置在
百度
地图和改变相机的位置也?viewDidLoad]; CLLocationCoordinate
2
D
浏览 8
修改于2017-04-19
得票数 0
回答已采纳
1
回答
刮除:为每只蜘蛛运行不同设置的蜘蛛
在过去的几天里,我在我的Scrapy/twisted中遇到了麻烦,因为它应该运行不同的蜘蛛并
分析
它们的输出。不幸的是,MySpider
2
依赖于 MySpider1 的提要,因此只能在MySpider1完成后才能运行。此外,MySpider1和MySpider
2
有不同的设置。myspider
2
.spiders.myspider
2
import MySpider
2
from scrapy.cra
浏览 2
提问于2020-06-07
得票数 3
回答已采纳
1
回答
有没有一种方法可以从数据帧中提取构建数据帧的代码?
': [10,
2
, 1, 8]}, num_legs0
2
fish 0 0
2
浏览 13
提问于2019-02-17
得票数 0
回答已采纳
1
回答
Android NDK buildFlavor忽略处理器类型
我对gradle和
百度
推送库有一些问题。abiFilter "mips" } versionCode Integer.parseInt("
2
"defaultConfig.versionCode) abiFilter "armeabi" }} 但是
百度
推送库只提
浏览 1
修改于2015-07-17
得票数 0
回答已采纳
2
回答
如何阻止机器人重载我表现缓慢的web应用程序?
而主要应用程序是“服务器A")通过服务器将"bot流量“与”用户流量“分离开来,将提供更准确的服务器端
分析
的额外好处后端是jboss/tomcatapache (或mod_proxy)能否根据头转发请求(即用
百度
、googlebot、msnbot等将所有请求转发给Server
浏览 0
修改于2015-11-19
得票数 2
1
回答
如何通过不同的管道运行多个蜘蛛?
-o
spider
1_output.csv --logfile
spider
1.log & scrapy crawl
spider
2
-o
spider
2
_output.csv --logfile
spider
2
所需的结果:
spider
1.csv与来自
spider
1的数据,
spider
2
.csv与来自
spider
2
的数据。当前结果: <
浏览 1
提问于2021-01-14
得票数 1
回答已采纳
3
回答
我有一个txt文件。如何获取字典键值并打印它们出现在其中的文本行?
这里是一个示例输出:
分析
什么文件: itsy_bitsy_
spider
.txt 文件itsy_bitsy_
spider
.txt itsy的一致性:总数:
2
行:1: ITSY Bitsy蜘蛛爬上水龙:4:
浏览 6
修改于2011-11-01
得票数 2
2
回答
抓取[
spider
-name]错误
在我的项目的爬行器文件夹中,有两个名为
spider
1和
spider
2
的爬行器class
spider
(BaseSpider): ........
spider
2
.py name="
spider
2
"
浏览 5
提问于2013-08-01
得票数 2
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券