搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3修改于2015-01-27得票数 0

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

1回答

如何在Scrapy中运行多个相同的爬虫？

这些urls在一个域名中，我用Scrapy编写了一个爬虫程序，我需要使用相同的爬虫程序一起运行这些urls。如果我有10个urls，我想创建10个相同的进程来运行爬虫程序，以提高效率。有解决方案吗？我尝试使用CrawlerProcess来运行爬虫，但是如果urls太多，它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态，但这种方法不利于维护。CrawlerProcess(get_project_settings()) page_urls = ['http://

浏览 0提问于2019-01-06得票数 0

1回答

Python中的多线程爬虫

它真的很高效吗？我计划用Python创建一个爬虫，为了使程序高效，我想创建尽可能多的线程，每个线程将下载一个网站。我试着在网上查找一些信息；不幸的是，我找不到太多。

浏览 16提问于2019-10-27得票数 0

回答已采纳

1回答

最有效的语言来创建一个非常快的网络爬虫？

我应该使用哪种语言来创建一个高效的网络爬虫？

浏览 1提问于2014-02-19得票数 0

4回答

对mongodb地理空间查询的结果进行有效排序

我有一个非常大的文档集合，比如：并希望能够高效地执行如下查询：.sort({ relevance: -1 }) 这导致所有东西都被磨得像爬虫一样(在任何特定的框中都可能有大量的结果，我只需要前10个左右)。

浏览 0修改于2013-09-03得票数 4

3回答

高效网络爬虫的语言建议

我正在寻找一种语言来编写一个高效的网络爬虫。

浏览 6提问于2010-12-03得票数 2

1回答

比regex更好的系统

对于这个简单的爬虫，还有比正则表达式更高效的进程或想法吗？

浏览 0修改于2012-05-21得票数 3

4回答

"in“的有效替代

我正在编写一个网络爬虫，最终目标是创建爬虫所走路径的地图。虽然我不知道其他爬虫以多快的速度抓取页面，但我的爬虫每分钟大约有2000页。for href in tempUrl:所以我的问题是，在提高效率的同时实现相同功能的另一种

浏览 0修改于2011-06-29得票数 4

回答已采纳

1回答

用Java在分布式体系结构上实现Web爬虫

朋友们，我用Java实现了一个多线程的网络爬虫。为了使它更高效，我想将其转换为分布式架构，即在3台机器上。据我所知，主从架构是最好的。

浏览 0提问于2013-02-26得票数 0

2回答

爬虫存储系统所需的建议

我计划用c++编写一个网络爬虫，它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个高效的分布式数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db？

浏览 0修改于2011-03-20得票数 1

3回答

使用Python广播的内存高效L2规范

目标是找到每个测试点和所有采样点之间的L2距离，以找到最接近的样本(不使用任何python距离函数)。基于在线帖子，我们可以使用矩阵乘法sqrt(X * X-2*X * Y+Y * Y)来实现L2范数。因此，我尝试了以下方法： y2 = np.dot(train,train.T) dist = np.sqrt(

浏览 3修改于2015-11-19得票数 8

1回答

如何有效地将向量重复到库达的矩阵中？

例如：a = [1 2 3 4]b = [1 2 3 4; .......我尝试的是分配b的每个元素我知道这在matlab中很容易(使用爬虫垫)，但是如何在cuda中高效地实现呢？我没有在库布拉斯找到任何例行程序。

浏览 2修改于2014-08-22得票数 0

回答已采纳

1回答

MySQL -更新与我是SELECTing相同的记录

我正在编写一个网络爬虫。所有链接都存储在MySQL数据库中。因为我将在多个节点上运行爬虫程序，所以我需要尽可能快地将URL设置为“正在爬行”，以保持高效。我的网络爬虫是用C#编写的。

浏览 1修改于2014-03-02得票数 0

1回答

从代码中获取所有href

我在做一个网络爬虫。然而，测试爬虫时，我发现并不是所有的链接都在a标签下。href有时也用在area或div标记中。driver.find_elements_by_xpath("//div")这真的把爬虫放在了网络爬虫中我还尝试了几种方法来高效地获取所有的href url，都使用了漂亮的soup和lxml，但到目

浏览 0修改于2011-12-20得票数 1

回答已采纳

1回答

将`www`‘重定向为’`www`‘，除非它的LetsEncrypt验证

我试图让LetsEncrypt autoSSL爬虫在我的htaccess上工作，它正在实现白名单方法。</IfModule># Rewrite "www.example.com -> example.com"但是，当试图验证301 permanent redirect版本时，爬虫正在获取www。.well-known/

浏览 0修改于2018-03-01得票数 0

回答已采纳

1回答

如果存在于scrapy中，则自动添加字段

写一个爬虫来抓取一个网站，但是被一个问题卡住了。这里有一段类似下面的代码。我还想写一个爬虫来抓取存在于<ul>标记中的所有<li>标记，以提取其中的href属性，并将其存储在一个增量变量中，如Field1、Field2、Field3等，其中‘href’为常量，数值随着存在的<li>标记的增加而递增<ul class="l-itemcassette l-space_medium">

浏览 28提问于2017-01-24得票数 0

回答已采纳

1回答

在python 2中使用漂亮的汤

我正在尝试用python2.7中的漂亮汤构建一个基本的web爬虫。:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' #domain... links=soup.findAll('a',href=True) for lin links:

浏览 3修改于2017-05-23得票数 1

回答已采纳

2回答

最适合用于图像爬行的开源、可扩展爬虫

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。一些特殊问题：现在这些看起来是最好的三种选择-摘要：我们需要从网络上获取尽可能多的图片。现有的爬行框架是可伸缩和高效<

浏览 5修改于2009-07-28得票数 3

2回答

强制网站到HTTPS，除了一些页面和Facebook爬虫

为了保留赞/共享，Facebook爬虫需要能够访问主页的HTTP版本。任何帮助都非常感谢。^ page1 | page2 | page3 $ [NC] # Go to http for80

浏览 5修改于2017-12-31得票数 1

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

如何在Scrapy中运行多个相同的爬虫？

Python中的多线程爬虫

最有效的语言来创建一个非常快的网络爬虫？

对mongodb地理空间查询的结果进行有效排序

高效网络爬虫的语言建议

比regex更好的系统

"in“的有效替代

用Java在分布式体系结构上实现Web爬虫

爬虫存储系统所需的建议

使用Python广播的内存高效L2规范

如何有效地将向量重复到库达的矩阵中？

MySQL -更新与我是SELECTing相同的记录

从代码中获取所有href

将`www`‘重定向为’`www`‘，除非它的LetsEncrypt验证

如果存在于scrapy中，则自动添加字段

在python 2中使用漂亮的汤

最适合用于图像爬行的开源、可扩展爬虫

强制网站到HTTPS，除了一些页面和Facebook爬虫

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐