搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

支持windows增量爬行的Web爬虫

我需要一个开源的web爬虫在java开发的增量爬行支持。 Nutch -一个网络爬虫，有更多的hadoop支持功能。Crawl4j是一个很好的网络爬虫，但是它没有增量<

浏览 4提问于2014-09-22得票数 1

回答已采纳

3回答

Web爬虫-如何构建访问的url集？

我已经在rabbitMQ上实现了一个分布式网络爬虫。除了访问的url集之外，一切几乎都完成了。我希望在不同的爬虫之间有某种共享的变量。在分布式环境中存储、访问和共享访问过的urls列表的最佳方法是什么？

浏览 6提问于2017-04-29得票数 0

2回答

如何在AWS Glue Crawler中监视和控制DPU使用

在中，据说亚马逊网络服务默认为每个ETL任务分配10个DPU，每个开发端点默认分配5个DPU，即使两者都可以配置最少2个DPU。它还提到，爬行也是以秒为增量定价的，最小运行时间为10分钟，但没有指定分配了多少DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU，但我还没有看到爬虫程序有任何这样的配置。每个爬虫有固定数量的DPU吗？我们能控制这个数量吗？

浏览 0提问于2018-03-08得票数 9

1回答

我正在为一个网络爬虫构建一个事件采购服务，其中有几个爬虫工人抓取几个网站，并试图为抓取的资源保留增量。我选择了PostgreSQL作为底层数据存储。最初，我使用一个表，利用事务的自动增量为每个“流”构建乐观锁定功能，但我很快发现，服务器可以处理的表数有一个文件系统上限。由于我不能再使用自动增量，因此我尝试使用两个表构建此功能，一个用于控制流的顺序，另一个用于存储事件本身。我的第一个问题是，我应该使用存储过程还是函数。

浏览 2修改于2020-05-12得票数 2

1回答

连接到多个TOR出口节点

我想开发一个使用TOR的分布式网络爬虫。我如何通过TOR实现20种不同的连接？我想用20个外部ips同时浏览网站。请用Python编写代码示例。

浏览 1提问于2012-08-23得票数 2

回答已采纳

1回答

运行刮伤式网络爬虫时出错

import scrapy name = "example" start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/R

浏览 0修改于2014-07-01得票数 3

回答已采纳

1回答

在HBase 0.90.6中推荐哪种Hadoop版本？

我没有其他选择，除了安装HBase 0.90.6，因为它只是推荐的稳定版本的纳奇(网络爬虫)，除了0.90.4。我的问题是，在HBase 0.90.6中推荐哪一个Hadoop版本才能在伪分布式模式下工作？

浏览 0提问于2013-10-06得票数 0

回答已采纳

1回答

Python selenium屏幕捕获未获取整个页面

我正在尝试创建一个通用的网络爬虫，将去一个网站，并采取屏幕截图。我使用的是Python、Selnium和PhantomJS。问题是屏幕截图没有捕捉到页面上的所有图像。(我没有足够高的代表来发布屏幕截图)我认为这可能与动态内容有关，但我已经尝试了等待函数，如隐式等待和on set_page_load_timeout方法。因为这是一个通用的爬虫，所以我不能等待特定的事件(我想抓取数百个站点)。有没有可能创建一个通用的网络爬虫来完成我正在尝试的屏幕截图？

浏览 4修改于2014-10-06得票数 3

3回答

流式文件增量编码/解码

这就是问题所在--我想在服务器上生成一个二进制文件(大小>1MB)的增量，并通过HTTP将增量发送到内存受限( RAM低，没有动态内存)的嵌入式设备。Deltas是首选的(而不是从服务器发送完整的二进制文件)，因为通过网络传输数据的成本很高。也许，与其问是否有合适的库存在，我还可以采取哪些替代方法来解决

浏览 1修改于2017-03-10得票数 4

2回答

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗？

我们有一个现有的基础设施，可以通过aws爬虫爬行S3目录。这些S3目录是作为AWS的一部分创建的，并通过spark作业转储。为了实现增量功能，我们在deltalake上做了一个POC。因此，当我通过星火三角洲作业在S3中编写这些deltalake文件时，我的爬虫程序无法从这些爬虫器中创建表。我们能用AWS爬虫来抓取三角洲湖的文件吗？

浏览 5提问于2020-09-05得票数 2

回答已采纳

2回答

爬虫存储系统所需的建议

我计划用c++编写一个网络爬虫，它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个高效的分布式数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db？

浏览 0修改于2011-03-20得票数 1

1回答

用Java在分布式体系结构上实现Web爬虫

朋友们，我用Java实现了一个多线程的网络爬虫。为了使它更高效，我想将其转换为分布式架构，即在3台机器上。据我所知，主从架构是最好的。

浏览 0提问于2013-02-26得票数 0

2回答

在网站和独立应用程序中使用Django框架

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1修改于2013-03-14得票数 1

回答已采纳

2回答

检查页面是否为python中的HTML页面？

我正在尝试为网络爬虫写一段python代码。我想检查我要抓取的页面是否是HTML页面，而不是像.pdf/.doc/.docx等那样的页面。我不想用扩展.html来检查它，因为asp、aspx或像这样的页面不会显式地.html扩展，但它们是.html页面。在python中有什么好的方法吗？

浏览 2提问于2013-09-19得票数 3

5回答

有哪些好的基于Ruby的网络爬虫？

我正在考虑写我自己的，但我想知道是否有好的网络爬虫在那里是用Ruby编写的。除了一个成熟的网络爬虫，任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了，但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。

浏览 2提问于2011-02-13得票数 21

回答已采纳

1回答

Web Crawler的功能

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

2回答

最适合用于图像爬行的开源、可扩展爬虫

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。一些特殊问题：现在这些看起来是最好的三种选择-摘要：我们需要从网络上获取

浏览 5修改于2009-07-28得票数 3

5回答

如何使用Apache Nutch保存原始html文件

我是搜索引擎和网络爬虫的新手。现在，我希望将特定网站中的所有原始页面存储为html文件，但使用Apache Nutch只能获得二进制数据库文件。如何使用Nutch获取原始html文件？(支持分布式爬行的工具更好。)

浏览 2修改于2013-04-09得票数 5

回答已采纳

2回答

在MYSQL中删除非常非常相似的行

在PHPMYAdmin中，我正在运行一个网络爬虫。网络爬虫偶尔会拾取相同的urls。在网络爬虫中，它已经索引了数千个链接，我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)

浏览 1提问于2012-08-17得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

支持windows增量爬行的Web爬虫

Web爬虫-如何构建访问的url集？

如何在AWS Glue Crawler中监视和控制DPU使用

Postgres函数/存储过程中的条件锁定

连接到多个TOR出口节点

运行刮伤式网络爬虫时出错

在HBase 0.90.6中推荐哪种Hadoop版本？

Python selenium屏幕捕获未获取整个页面

流式文件增量编码/解码

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗？

爬虫存储系统所需的建议

用Java在分布式体系结构上实现Web爬虫

在网站和独立应用程序中使用Django框架

检查页面是否为python中的HTML页面？

有哪些好的基于Ruby的网络爬虫？

Web Crawler的功能

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

最适合用于图像爬行的开源、可扩展爬虫

如何使用Apache Nutch保存原始html文件

在MYSQL中删除非常非常相似的行

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐