腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能
高效
,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
修改于2015-01-27
得票数 0
回答已采纳
5
回答
Googlebot是用哪种编程语言编写的(或任何其他
高效
的网络
爬虫
)?
或者,更普遍的是,
高效
的网络
爬虫
是用哪种语言编写的? 我见过很多Java语言,但在我看来,它不是最适合开发网络
爬虫
的语言,因为它产生了太多的开销(尝试使用Heritrix网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
1
回答
Python中的多线程
爬虫
它真的很
高效
吗?我计划用Python创建一个
爬虫
,为了使程序
高效
,我想创建尽可能多的线程,每个线程将下载一个网站。我试着在网上查找一些信息;不幸的是,我找不到太多。
浏览 16
提问于2019-10-27
得票数 0
回答已采纳
1
回答
最有效的语言来创建一个非常快的网络
爬虫
?
我应该使用哪种语言来创建一个
高效
的网络
爬虫
?
浏览 1
提问于2014-02-19
得票数 0
1
回答
如何在Scrapy中运行多个相同的
爬虫
?
这些urls在一个域名中,我用Scrapy编写了一个
爬虫
程序,我需要使用相同的
爬虫
程序一起运行这些urls。如果我有10个urls,我想创建10个相同的进程来运行
爬虫
程序,以提
高效
率。有解决方案吗?我尝试使用CrawlerProcess来运行
爬虫
,但是如果urls太多,它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态,但这种方法不利于维护。
浏览 0
提问于2019-01-06
得票数 0
3
回答
高效
网络
爬虫
的语言建议
我正在寻找一种语言来编写一个
高效
的网络
爬虫
。
浏览 6
提问于2010-12-03
得票数 2
1
回答
比regex更好的系统
对于这个简单的
爬虫
,还有比正则表达式更
高效
的进程或想法吗?
浏览 0
修改于2012-05-21
得票数 3
4
回答
"in“的有效替代
我正在编写一个网络
爬虫
,最终目标是创建
爬虫
所走路径的地图。虽然我不知道其他
爬虫
以多快的速度抓取页面,但我的
爬虫
每分钟大约有2000页。for href in tempUrl:所以我的问题是,在提
高效
率的同时实现相同功能的另一种
浏览 0
修改于2011-06-29
得票数 4
回答已采纳
2
回答
爬虫
存储系统所需的建议
我计划用c++编写一个网络
爬虫
,它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个
高效
的分布式数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db?
浏览 0
修改于2011-03-20
得票数 1
1
回答
用Java在分布式体系结构上实现Web
爬虫
朋友们,我用Java实现了一个多线程的网络
爬虫
。为了使它更
高效
,我想将其转换为分布式架构,即在3台机器上。据我所知,主从架构是最好的。
浏览 0
提问于2013-02-26
得票数 0
4
回答
对mongodb地理空间查询的结果进行有效排序
我有一个非常大的文档集合,比如:并希望能够
高效
地执行如下查询:.sort({ relevance: -1 }) 这导致所有东西都被磨得像
爬虫
一样(在任何特定的框中都可能有大量的结果,我只需要前10个左右)。
浏览 0
修改于2013-09-03
得票数 4
1
回答
MySQL -更新与我是SELECTing相同的记录
我正在编写一个网络
爬虫
。所有链接都存储在MySQL数据库中。因为我将在多个节点上运行
爬虫
程序,所以我需要尽可能快地将URL设置为“正在爬行”,以保持
高效
。 我的网络
爬虫
是用C#编写的。
浏览 1
修改于2014-03-02
得票数 0
1
回答
从代码中获取所有href
我在做一个网络
爬虫
。然而,测试
爬虫
时,我发现并不是所有的链接都在a标签下。href有时也用在area或div标记中。driver.find_elements_by_xpath("//div")这真的把
爬虫
放在了网络
爬虫
中我还尝试了几种方法来
高效
地获取所有的href url,都使用了漂亮的soup和lxml,但到目
浏览 0
修改于2011-12-20
得票数 1
回答已采纳
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取网络上的图像。一些特殊问题:现在这些看起来是最好的三种选择-摘要: 我们需要从网络上获取尽可能多的图片。现有的爬行框架是可伸缩和
高效<
浏览 5
修改于2009-07-28
得票数 3
1
回答
对于非高级推特开发人员,是否有获得reply_count的变通方法?
我正在构建一个
爬虫
,并且已经有了一个方法来抓取tweet的时间线以及对tweet的回复。为了提
高效
率,我想在调用reply方法之前找出tweet是否有任何回复。
浏览 19
提问于2019-08-10
得票数 0
5
回答
Lucene是键/值HashMap的好选择吗?
我正在做一个迷你网络
爬虫
。现在拥有一个
高效
的HashMap是很重要的。我只想要只有插入和查找的键/值数据结构。 我知道Lucene可以做到这一点,只要有两个字段: key和value;但是它效率高吗?
浏览 0
修改于2011-01-13
得票数 1
回答已采纳
1
回答
linux上的shell脚本
nohup scrapy crawl
l
&} export PATH 我想先运行 add_columns.py脚本最后要运行final_script.pyfinal_script.py在结束前正在执行 no
浏览 2
修改于2012-11-03
得票数 2
回答已采纳
2
回答
哪个更
高效
: ls -
l
* ABC * vs ls -
l
| grep ABC
至少有两种方法可以做同样的事情:) ls -
l
*ABC*和ls -
l
| grep ABC 但是哪一个更有效呢?还有没有其他更
高效
的?
浏览 2
提问于2017-11-02
得票数 0
2
回答
如何消除Scrapy Spider数据中的空白
我正在用Scrapy编写我的第一个
爬虫
,并尝试遵循文档。我已经实现了ItemLoaders。爬行器提取数据,但数据包含许多行返回。我尝试了许多方法来删除它们,但似乎都不起作用。一些人试图在items.py中使用它们,而另一些人则在
爬虫
中使用它们。如何清除这些行返回的数据(\r\n)?我的items.py文件只包含项目名称和字段()。
爬虫
代码如下:from scrapy.selector import HtmlXPathSelector from scrapy.con
浏览 2
修改于2013-04-16
得票数 5
回答已采纳
1
回答
当有许多重复链接时,如何提高抓取速度
爬虫
目前每分钟只抓取200页,我需要加快速度。 对于每个页面,
爬虫
提取其链接并跟踪它们。问题是每个页面大约有600个链接,其中大部分都在所有页面上,我认为这就是为什么
爬虫
需要这么长时间才能完成的原因,因为
爬虫
正在为所有链接调用请求函数,即使它们是重复的。以下是我的代码的简化版本: def parse_data(self, response): outlinks_extrated = [
l
.url for
l
浏览 24
提问于2020-01-28
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券