腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(2117)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
0
回答
Scrapy:一个项目中的多个
爬虫
我已经写了一个网络
爬虫
与代理使用scrapy。因为我总是需要一个随机的代理
池
来避免被禁止,我决定编写另一个
爬虫
来抓取一个提供免费
IP
的网站。每次开始
爬虫
过程时,我都需要首先抓取
IP
,将它们导出到一个文件中,然后转到另一个
爬虫
的根目录并将
IP
读取到setting.py中。我想知道是否有可能将两个
爬虫
合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。 非常感谢!
浏览 7
提问于2016-07-07
得票数 0
1
回答
一种提取
IP
:port;数据出现在大文本文件中的方法?
我正在尝试找到一种方法,将所有出现的
IP
:Port;数据提取到一个大文本文件中。txt文件中的数据格式如下: 10.255.74.66:4195;Wmr!|[
6-9
])?|[3-9]\d?)\.){3}([0-1](\d\d?)?|2([0-4]\d?|5[0-5]?|[
6-9
])?|[3-9]\d?)|[
6-9
]\d?)?|[
6-9
](\d\d?)?)?|[7-9](\d(\d\d?)?)?)
浏览 0
修改于2018-10-02
得票数 0
2
回答
如何将代理
池
实现为多个抓取程序?
我必须在具有多个使用scrapy的
爬虫
的服务器中实现一个代理
池
。 假设我已经有一个数据库,其中有多个代理一直在更新,我该如何实现代理
池
。我不想直接在代码中添加代理,主要是因为很多代理死得很快,有些
爬虫
需要很长时间才能完成。 有没有一种方法可以使用中间件或其他东西来实现这一点,而不需要更改我获得的每个
爬虫
? 谢谢。
浏览 9
提问于2019-03-19
得票数 0
5
回答
Python中的多线程
爬虫
真的可以提高速度吗?
我想用python写一个小的网络
爬虫
。我开始研究将其编写为多线程脚本,一个线程下载
池
和一个
池
处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络
爬虫
有什么影响?基本上我想问的是,用python做一个多线程
爬虫
真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
对脚本中的这一行感到困惑
get_
ip
(){ local
IP
=$(
ip
addr | egrep -o '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' | egrep-v "^192\.168|^172\.1[
6-9
]\.|^172\.2[0-9]\.|^172\.3[0-2]\.|^10\.|^127\.|^255\.|^0\." | head -n 1 )[ -z ${
IP
} ] &&
IP
=
浏览 3
修改于2017-01-21
得票数 0
回答已采纳
1
回答
提高PostgreSQL内网
IP
地址正则表达式匹配的性能
我正在尝试使用where子句优化select语句,以便只选择具有私有源
IP
地址和公共目标
IP
地址的行。我有两个类型为source_
ip
和destination_
ip
的列。我觉得下面的操作不是最有效的方法,因为我正在进行正则表达式匹配,以确定
IP
是公有
IP
还是私有
IP
: or text(source_
ip
) like '19
浏览 8
修改于2018-05-03
得票数 0
回答已采纳
2
回答
防止自定义Web
爬虫
被阻塞
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP
地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决方案会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
5
回答
RegExp匹配的内容
它是一个简单的程序,它使用regex检查
IP
地址是公共地址还是私有地址: """ """ c = re.compile('(^127\.0\.0\.1)|(^10\.)|(^172\.1[
6-9
]\.)|(^
浏览 6
提问于2016-01-14
得票数 5
回答已采纳
1
回答
如何在弹性搜索中查询
IP
范围?
我想在ELK中查询
IP
范围:172.16.0.0到172.31.0.0。 "should": [ "regexp": { "gte": "172.16.0.0", "l
浏览 0
提问于2020-06-22
得票数 2
回答已采纳
1
回答
如何限制从外部
IP
访问ngnix位置
我希望限制从外部
IP
访问ngnix位置。我将以下配置添加到ngnix配置文件中,但我不确定这样做是否正确。是否有更好的选择来限制外部
IP
访问某个位置?map $proxy_add_x_forwarded_for $remote_
ip
{ ""$http_x_real_
ip
;map $remote_
ip
$isinternal { ~^10\.
浏览 0
提问于2021-08-26
得票数 1
回答已采纳
1
回答
在Java中每秒执行许多http请求的有效方法
我在做网络
爬虫
。可以执行许多请求(例如每秒500-1000个请求),而不需要每个请求创建线程(我不是指线程
池
、重用等等)?
浏览 4
提问于2012-12-05
得票数 2
6
回答
具有独立实例的.NET自定义线程
池
什么是最推荐的.NET自定义线程
池
,可以有单独的实例,即每个应用程序多个线程
池
?我需要一个无限的队列大小(建立一个
爬虫
),并需要运行我正在爬行的每个网站在并行单独的线程
池
。编辑:我需要尽可能快地挖掘这些站点的信息,使用每个站点的单独线程
池
将使我能够控制在任何给定时间在每个站点上工作的线程数量。(不超过2-3个) 谢谢罗伊
浏览 0
修改于2009-07-21
得票数 12
2
回答
如何在sh中查看函数的状态码?
/bin/sh local netbit=`echo "$1" | awk -F\/ '{print $1}'` *25[
6-9
]* | *2[
6-9
][0-9]* | *[3-9][0-9][0-9]* | *[0-9][0-9][0-9][0-9]* ) falsereturn 0 else
浏览 0
修改于2013-06-21
得票数 0
回答已采纳
1
回答
javascript在文本框上显示本地
ip
,而不是<li></li>
如何将结果显示在html文本框上而不是 getIPs(function(
ip
){ //local IPs
浏览 3
提问于2016-12-13
得票数 0
1
回答
关于SOCKS5安全性的问题
我计划启动一个分布式
爬虫
,以避免服务器/CDN施加的常见限制,如速率限制、区域筛选和其他限制。源文件能够检测到服务器
IP
吗? 我无法控制代理(SOCKS5服务器),这种连接有多安全?
浏览 0
修改于2020-01-01
得票数 1
回答已采纳
1
回答
使用实体框架C#限制到数据库的连接
我的问题是,我有几个
爬虫
填充这个数据库,以供我们的网站使用实体框架。还有其他方法来实现这一点吗?
浏览 2
修改于2016-08-03
得票数 5
回答已采纳
1
回答
如何在一个mesos从节点上运行多个码头容器?
我有两种不同的
爬虫
器,每一种都被构建成一个码头容器。现在我通过马拉松发射。下面的代码是马拉松启动json。"cpus": "0.5", "uris": [], "constraints": [
浏览 3
提问于2015-04-09
得票数 1
回答已采纳
3
回答
如何使用Java创建PostgreSQL连接
池
?
我正在尝试使用连接
池
,但我不能正确理解它。谁实现了它?是软件、驱动程序还是数据库?我需要一个代码示例。我正在做一个网络
爬虫
,它有很多到数据库的连接。
浏览 0
修改于2011-06-23
得票数 16
回答已采纳
1
回答
如何安全地将我在AWStats中找到的这些in列入黑名单?
我检查了我的AWStats,发现一些
IP
地址占用了大量的带宽。我怎么知道列入黑名单是否安全?有几个人每月消耗2GB或更多,一直如此。看这个截图:我还检查了AWStats中的
爬虫
器,但是我没有看到
IP
地址,所以我无法知道它是从哪里来的。我怎么才能挑出坏
爬虫
?
浏览 3
提问于2017-10-29
得票数 0
回答已采纳
11
回答
正则表达式中的内网
IP
地址标识符
我想知道这是否是匹配以私有
IP
地址(Perl样式的Regex)开头的字符串的最佳方法: (^127\.0\.0\.1)|(^192\.168)|(^10\.)|(^172\.1[
6-9
])|(^172\
浏览 6
修改于2014-01-09
得票数 39
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券