腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
在Scrapy中顺序运行多个
爬虫
list: ") # Enter name of list of seed sites separated by newline 我需要以某种方式检测一个
爬虫
何时完成,这样我就可以在它所在的地方启动另一个
爬虫
。有没有一个函数可以找出有多少个活跃的
爬虫
?所以我可以像这样放一个while循环
浏览 2
提问于2014-11-28
得票数 4
21
回答
围棋练习#
10
之旅:
爬虫
是一个练习,它要求读者对网络
爬虫
进行并行化(并使其不包含重复,但我还没有做到这一点)。
浏览 6
修改于2021-09-12
得票数 23
回答已采纳
1
回答
PHP pthread:向池中添加一个“线程”中的新对象
我的目标是创建一个小的网络
爬虫
。该过程应该继续,直到找不到新的URL。我的当前绘图如下:
爬虫
提取urls并将其放入池中。因此,每个Worker都有一个对池的引用,因此
爬虫
可以通过worker访问池对象。{ public functi
浏览 1
提问于2017-02-04
得票数 1
2
回答
带
R
的with
爬虫
我需要创建一个可以加载到csv文件中的
R
代码。csv文件包含一个名为" link“的列,对于每个i(Row),有一个链接,代码需要从这个链接下载链接的内容,并将其放在一个单独的csv文件中。不出所料,我需要在这段代码中实现几样东西,这样它才能成为完成这一特定任务的好
爬虫
。 我想对每100次下载使用Sys.Sleep函数。这是我的硕士论文,这并不是真正的
R
编程,但我需要下载的内容,从许多网站,我已经被允许访问。接下来,我要对论文的内容进行分析,这也是我论文的重点所在
浏览 0
修改于2012-09-09
得票数 0
回答已采纳
1
回答
刮除不同数量的url返回
我已经建立了一个
爬虫
在一个固定的领域内的螃蟹和提取url匹配的修复正则表达式。如果看到某个特定的url,则
爬虫
将跟踪该链接。
爬虫
可以很好地提取url,但是每次我运行
爬虫
时,它都会返回不同数量的链接,也就是说,每次运行它时,链接的数量都会不同。我在用Scrapy爬行。这是刮痕的问题吗?xyz.nl"] rules = (Rule(SgmlLinkExtractor
浏览 3
修改于2014-04-07
得票数 2
回答已采纳
1
回答
使用
R
的网络
爬虫
我想建立一个网络
爬虫
使用
R
程序为网站"",它可以访问与地址参数的网站,然后从网站获取生成的经度和纬度。这将对我拥有的数据集的长度重复。提前谢谢。
浏览 28
修改于2018-06-08
得票数 -2
1
回答
用Scrapy爬行多个页面
目标问题->website.com--->
浏览 2
提问于2017-07-17
得票数 0
1
回答
什么是爬行延迟:1意味着如果它被解释为是?
我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络
爬虫
所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示:爬行A页爬行B页换句话说, 什么是爬行延迟:1表示如果它被解释为是?
浏览 0
修改于2020-03-04
得票数 1
1
回答
在Scrapy中,如何使用JSON加载的项来填充新字段?
然后,我想使用该JSON中包含的信息来填充我的
爬虫
中的其他字段。下面是到目前为止的
爬虫
,它爬行最近的100个工作列表:from ..items import EthjobsScrapyItem, EthJobsLoaderjsonvar = re.sub(
r
"\A\s+", "", jsonvar) jsonvar = re.sub(
r
"( ){2,}",
r
"
浏览 2
修改于2019-12-11
得票数 0
1
回答
Haskell http-客户端集用户代理字符串
我在Haskell用手术刀写一个网络
爬虫
。request <- parseRequest weblink
r
<- return $ scrapeStringLike (L8.unpack p) torrentS mapM_ putStrLn我认为它检查用户代理字符串,并对真正的浏览器
浏览 2
提问于2017-05-08
得票数 0
回答已采纳
4
回答
AWS胶在CSV中不检测标头
嗨,我有一堆CSV位于S3中,这是一个通过AWS建立的
爬虫
程序,这个
爬虫
构建了大约
10
个表,因为它扫描了
10
个文件夹,其中只有一个没有检测到标头。csv的结构和其他的一样。请给我建议?
浏览 3
提问于2020-05-17
得票数 4
回答已采纳
1
回答
如何在Scrapy中运行多个相同的
爬虫
?
这些urls在一个域名中,我用Scrapy编写了一个
爬虫
程序,我需要使用相同的
爬虫
程序一起运行这些urls。如果我有
10
个urls,我想创建
10
个相同的进程来运行
爬虫
程序,以提高效率。有解决方案吗?我尝试使用CrawlerProcess来运行
爬虫
,但是如果urls太多,它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态,但这种方法不利于维护。
浏览 0
提问于2019-01-06
得票数 0
1
回答
上传从网站压缩到ftp服务的文件
我在做一个
爬虫
程序。我已经做了
爬虫
,从网页上塞新闻,它可以上传到我的本地计算机,但我想直接上传到FTP服务器。for i in range(0,len(a),2):
r
url, allow_redirects=True) fileName = datetime.now().strftime(
浏览 4
修改于2020-06-09
得票数 0
回答已采纳
1
回答
Clojure大猩猩
爬虫
和JVM
10
异常
Linux 17.1.11Java10.0.1的Leiningen 2.8.1 OpenJDK 64位服务器VM行得通! 也许它可以用于新的Java运行时,但是我决定一次按下所有的按钮.
浏览 2
修改于2018-07-23
得票数 2
回答已采纳
2
回答
使用wget抓取网站并限制抓取的链接总数
我想通过使用wget工具来学习更多关于
爬虫
的知识。我有兴趣爬行我的部门的网站,并找到该网站上的前100个链接。到目前为止,下面的命令就是我所拥有的。如何限制
爬虫
在100个链接后停止?wget -
r
-o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"
浏览 0
修改于2011-02-12
得票数 3
回答已采纳
2
回答
如何在python中编写无休止的循环
爬虫
?
编辑的while True: sleep(
10
minutes)run() doCarwl
浏览 4
修改于2015-05-31
得票数 0
3
回答
Kentico
10
使用的Web Crawler引擎
根据文档,是否有更多关于Kentico
10
使用的网络
爬虫
技术/引擎的信息?我之所以问这个问题,是因为我想把它用于一个定制的
爬虫
项目,这个项目可以位于Kentico之外,并且仍然允许它与Kentico平台具有内在的兼容性。
浏览 0
修改于2017-08-31
得票数 7
回答已采纳
2
回答
如何在scrapy中使用中间件的self.crawler.engine.pause()
我正在尝试从中间件中暂停运行抓取引擎(运行
爬虫
)。'cRetry‘对象没有属性’
爬虫
‘ self.errorCounter = self.errorCounter + 1 os.system("resta
浏览 3
提问于2014-01-14
得票数 1
回答已采纳
1
回答
如何使用漂亮的soup python检索最大尺寸的图像
我用python做了一个
爬虫
,我正在尝试下载这篇文章中的图片--。这个网站的问题是,它会自动调整大小,当我尝试下载文章的图片时,它给我的是320像素(太小)。发生这种情况的原因是
爬虫
进入url的源文件(view- source:),它有320个像素。有一种方法可以使图像最大尺寸,或者我如何在浏览器中看到它?这是获取图像的代码:soup = Beautiful
浏览 0
提问于2015-11-30
得票数 2
1
回答
gem安装失败
我试图通过使用gem命令安装instagram
爬虫
:但我收到以下错误: 构建本机扩展。这需要一段时间..。错误:安装instagram
爬虫
时出错:错误:无法构建创业板本机扩展。当前目录: /var/lib/gems/2.5.0/gems/nokogiri-1.10.1/ext/nokogiri /usr/bin/ruby2.5 -
r
.
浏览 0
提问于2019-02-05
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券