搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3修改于2015-01-27得票数 0

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

1回答

Python中的多线程爬虫

它真的很高效吗？我计划用Python创建一个爬虫，为了使程序高效，我想创建尽可能多的线程，每个线程将下载一个网站。我试着在网上查找一些信息；不幸的是，我找不到太多。

浏览 16提问于2019-10-27得票数 0

回答已采纳

1回答

最有效的语言来创建一个非常快的网络爬虫？

我应该使用哪种语言来创建一个高效的网络爬虫？

浏览 1提问于2014-02-19得票数 0

1回答

如何在Scrapy中运行多个相同的爬虫？

这些urls在一个域名中，我用Scrapy编写了一个爬虫程序，我需要使用相同的爬虫程序一起运行这些urls。如果我有10个urls，我想创建10个相同的进程来运行爬虫程序，以提高效率。有解决方案吗？我尝试使用CrawlerProcess来运行爬虫，但是如果urls太多，它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态，但这种方法不利于维护。

浏览 0提问于2019-01-06得票数 0

3回答

高效网络爬虫的语言建议

我正在寻找一种语言来编写一个高效的网络爬虫。

浏览 6提问于2010-12-03得票数 2

1回答

比regex更好的系统

对于这个简单的爬虫，还有比正则表达式更高效的进程或想法吗？

浏览 0修改于2012-05-21得票数 3

4回答

"in“的有效替代

我正在编写一个网络爬虫，最终目标是创建爬虫所走路径的地图。虽然我不知道其他爬虫以多快的速度抓取页面，但我的爬虫每分钟大约有2000页。for href in tempUrl:所以我的问题是，在提高效率的同时实现相同功能的另一种

浏览 0修改于2011-06-29得票数 4

回答已采纳

2回答

爬虫存储系统所需的建议

我计划用c++编写一个网络爬虫，它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个高效的分布式数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db？

浏览 0修改于2011-03-20得票数 1

1回答

用Java在分布式体系结构上实现Web爬虫

朋友们，我用Java实现了一个多线程的网络爬虫。为了使它更高效，我想将其转换为分布式架构，即在3台机器上。据我所知，主从架构是最好的。

浏览 0提问于2013-02-26得票数 0

4回答

对mongodb地理空间查询的结果进行有效排序

我有一个非常大的文档集合，比如：并希望能够高效地执行如下查询：.sort({ relevance: -1 }) 这导致所有东西都被磨得像爬虫一样(在任何特定的框中都可能有大量的结果，我只需要前10个左右)。

浏览 0修改于2013-09-03得票数 4

1回答

MySQL -更新与我是SELECTing相同的记录

我正在编写一个网络爬虫。所有链接都存储在MySQL数据库中。因为我将在多个节点上运行爬虫程序，所以我需要尽可能快地将URL设置为“正在爬行”，以保持高效。我的网络爬虫是用C#编写的。

浏览 1修改于2014-03-02得票数 0

1回答

从代码中获取所有href

我在做一个网络爬虫。然而，测试爬虫时，我发现并不是所有的链接都在a标签下。href有时也用在area或div标记中。driver.find_elements_by_xpath("//div")这真的把爬虫放在了网络爬虫中我还尝试了几种方法来高效地获取所有的href url，都使用了漂亮的soup和lxml，但到目

浏览 0修改于2011-12-20得票数 1

回答已采纳

2回答

最适合用于图像爬行的开源、可扩展爬虫

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。一些特殊问题：现在这些看起来是最好的三种选择-摘要：我们需要从网络上获取尽可能多的图片。现有的爬行框架是可伸缩和高效<

浏览 5修改于2009-07-28得票数 3

1回答

对于非高级推特开发人员，是否有获得reply_count的变通方法？

我正在构建一个爬虫，并且已经有了一个方法来抓取tweet的时间线以及对tweet的回复。为了提高效率，我想在调用reply方法之前找出tweet是否有任何回复。

浏览 19提问于2019-08-10得票数 0

5回答

Lucene是键/值HashMap的好选择吗？

我正在做一个迷你网络爬虫。现在拥有一个高效的HashMap是很重要的。我只想要只有插入和查找的键/值数据结构。我知道Lucene可以做到这一点，只要有两个字段: key和value；但是它效率高吗？

浏览 0修改于2011-01-13得票数 1

回答已采纳

1回答

linux上的shell脚本

nohup scrapy crawl l &} export PATH 我想先运行 add_columns.py脚本最后要运行final_script.pyfinal_script.py在结束前正在执行 no

浏览 2修改于2012-11-03得票数 2

回答已采纳

2回答

哪个更高效: ls -l ABC * vs ls -l | grep ABC*

至少有两种方法可以做同样的事情:) ls -l *ABC*和ls -l | grep ABC 但是哪一个更有效呢？还有没有其他更高效的？

浏览 2提问于2017-11-02得票数 0

2回答

我正在用Scrapy编写我的第一个爬虫，并尝试遵循文档。我已经实现了ItemLoaders。爬行器提取数据，但数据包含许多行返回。我尝试了许多方法来删除它们，但似乎都不起作用。一些人试图在items.py中使用它们，而另一些人则在爬虫中使用它们。如何清除这些行返回的数据(\r\n)？我的items.py文件只包含项目名称和字段()。爬虫代码如下：from scrapy.selector import HtmlXPathSelector from scrapy.con

浏览 2修改于2013-04-16得票数 5

回答已采纳

1回答

当有许多重复链接时，如何提高抓取速度

爬虫目前每分钟只抓取200页，我需要加快速度。对于每个页面，爬虫提取其链接并跟踪它们。问题是每个页面大约有600个链接，其中大部分都在所有页面上，我认为这就是为什么爬虫需要这么长时间才能完成的原因，因为爬虫正在为所有链接调用请求函数，即使它们是重复的。以下是我的代码的简化版本： def parse_data(self, response): outlinks_extrated = [l.url for l

浏览 24提问于2020-01-28得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

Python中的多线程爬虫

最有效的语言来创建一个非常快的网络爬虫？

如何在Scrapy中运行多个相同的爬虫？

高效网络爬虫的语言建议

比regex更好的系统

"in“的有效替代

爬虫存储系统所需的建议

用Java在分布式体系结构上实现Web爬虫

对mongodb地理空间查询的结果进行有效排序

MySQL -更新与我是SELECTing相同的记录

从代码中获取所有href

最适合用于图像爬行的开源、可扩展爬虫

对于非高级推特开发人员，是否有获得reply_count的变通方法？

Lucene是键/值HashMap的好选择吗？

linux上的shell脚本

哪个更高效: ls -l ABC * vs ls -l | grep ABC*

如何消除Scrapy Spider数据中的空白

当有许多重复链接时，如何提高抓取速度

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐