搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

爬行，爬行，获取数据

我想写一个爬虫来做一些基础设施(路由器，WAPS，系统等)的清单。所以，我在服务器上安装了一个应用程序，以及如何部署它。爬虫是怎么开始的？爬虫是如何返回数据的？

浏览 5修改于2015-02-09得票数 0

1回答

学习多线程Java爬虫的良好开端

我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而，实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫，它有：基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot

浏览 1提问于2012-04-16得票数 0

回答已采纳

1回答

Web Crawler - Windows应用程序

我想建立一个网络爬虫与用户界面，允许用户输入一系列的零件编号，然后爬虫将挖掘约6网址的(制造商/供应商网站)，并拉回该零件的库存值和警报，如果它更新到1+ (通常情况下，我们正在寻找的零件坐在0库存数周有没有办法(基于Windows应用程序或基于web应用程序)允许用户输入不同的零件号，将这些零件号发送到JSON文件(爬虫)，抓取“库存”值并返回？

浏览 2修改于2019-05-06得票数 2

2回答

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗？

我们有一个现有的基础设施，可以通过aws爬虫爬行S3目录。这些S3目录是作为AWS的一部分创建的，并通过spark作业转储。为了实现增量功能，我们在deltalake上做了一个POC。因此，当我通过星火三角洲作业在S3中编写这些deltalake文件时，我的爬虫程序无法从这些爬虫器中创建表。我们能用AWS爬虫来抓取三角洲湖的文件吗？

浏览 5提问于2020-09-05得票数 2

回答已采纳

4回答

我有一个网站，列出了许多不同零售商网站的产品。我有爬虫脚本，运行从每个网站抓取产品。由于每个网站是不同的，每个爬虫脚本必须定制，以抓取特定的零售商网站。所以基本上每个零售商我有一个爬虫。在这个时候，我有21个爬虫不断运行，以收集和更新这些网站的产品。不过，最近我将检查爬虫脚本，并注意到其中一个脚本不再运行，在错误日志中我发现了以下内容。，然而，因为它是“无法叉”，它从来没有重新启动和最初的实例的爬虫结束，它通常这样做。这似乎是一个限制

浏览 7提问于2013-12-18得票数 13

回答已采纳

1回答

在谷歌应用程序引擎上为选定的网站运行网络爬虫？

我需要写一个爬虫来提取一些信息从一些预先选定的网站只。也许我可以尝试Nutch为我做这件事。这种方法的可行性有多大？1)在google基础设施上托管爬虫2) Nutch +应用引擎-这可能吗？

浏览 2提问于2010-12-06得票数 3

1回答

AWS雅典娜没有发现csv文件的记录

我在s3中得到了2Gb的csv文件(管道分隔)，当运行athena的查询时，它发现零条记录(尽管它正确地返回列)没有应用任何分区，只要尽可能默认地运行爬虫即可。

浏览 2修改于2019-04-04得票数 0

1回答

抓取电子商务网站并聚合相同的产品

我正在尝试学习网络抓取，作为一个应用程序，我想我应该构建一个聚合器，它可以抓取零售商的某些产品，并为不同零售商的相同产品建立一个价格比较。当我开始做这个的时候，我意识到这是一个多大的任务。其次，在我以某种方式为x个站点解码了DOM之后(为一两个站点这样做很容易，但我想让爬虫变得可伸缩！)并获取各种项目的数据。我需要能够比较相同产品的不同名称，以便我可以比较不同的价格(将它们转换为相同的货币，检查返回的价格是否为原始/正在销售的价格，等等)在零售商之间。我正在尝试用Scrapy编写我的爬虫，但是

浏览 25提问于2019-05-29得票数 1

1回答

有关于如何抓取__doPostBack(‘...’)后面的页面的想法吗？

我正在做这个php基础的刮板/爬虫程序，它工作得很好，直到它得到.net生成的链接__doPostBack(...)，你知道如何处理这个问题并抓取那些链接后面的页面吗？

浏览 0修改于2011-12-22得票数 2

回答已采纳

2回答

我可以抓取网站，下载特定的页面，并将呈现的版本保存为PHP中的PDF吗？

我只需要在这里澄清一下这个概念是否可行，或者我是否误解了爬虫的能力。假设1有一个100个网站/博客的列表，每天，我的程序(我假设它是爬虫的东西)会在它们中运行，如果某些特定的短语(如“迈阿密热火”或“勒布朗·詹姆斯”)匹配，它将继续下载该页面->，将其转换成一个包含全文这种类型的程序被称为爬虫，对吗？我计划在代码的基础上构建

浏览 4修改于2012-11-26得票数 0

回答已采纳

1回答

添加多个S3路径来粘合地形爬行器

我正在用Terraform在AWS中建立一些基础设施。我已经创建了几个S3桶，并希望Glue爬虫每小时爬行这些桶一次。我的Terraform目录db、角色和策略都构建得很好，但是当我试图通过向爬虫的S3部分添加四条s3_target{}路径来创建爬虫资源时，我会得到一个失败： resource "aws_glue_crawler我可以通过AWS控制台实现这一点，但这需要使用基础设施作为代码。

浏览 0修改于2019-02-19得票数 3

回答已采纳

2回答

Python -单元测试

因此，我有一个关于单元测试的问题，不一定是关于Python的，但是由于我目前正在使用Python，所以我选择以它作为我的问题的基础。举个例子，我写了一个爬虫。我不知道它还会有什么，否则我就不需要爬虫了。那么，在不知道该方法将返回的情况下，如何测试爬虫是否正常工作呢？提前感谢！

浏览 1提问于2014-01-18得票数 3

回答已采纳

1回答

实体框架-防止上下文中的缓存

我有一个实体框架为基础的Web API，读取和写入数据到Mssql数据库。如果您不想在每次访问任何数据时都访问数据库，则Context非常有用，因为它会缓存您以前使用过的数据。但我的问题就在这里；我有一个独立工作的爬虫和更改数据库。因此，我的web应用程序上下文不知道爬虫更改了什么。因为当我尝试访问数据时，它会显示上下文中的数据。

浏览 9提问于2017-02-15得票数 1

1回答

使用Spring 3的动态作业调度

我已经开发了一个网络爬虫，爬行以启动URL作为种子参数。如果可能的话，我希望允许用户根据作业来安排此任务。目前我正在使用Spring 3.1.2和Hibernate。我需要给用户一个前端，它接收cronJob参数，并在此基础上运行爬虫。可以用弹簧来做吗。

浏览 6修改于2012-08-28得票数 5

回答已采纳

3回答

爬虫如何确保最大的覆盖率？

我读了一些关于Web爬行的文章，学习了爬行的基础知识。根据他们的说法，网络爬虫只使用其他网页检索到的URL，并通过树(实际上是网格) 在这种情况下，爬虫如何确保最大的覆盖率。

浏览 9修改于2009-06-04得票数 4

回答已采纳

3回答

如何在Java中使用线程安全信号来暂停线程

更新2： public class TestCrawler extends WebCrawler { {

浏览 1修改于2013-01-14得票数 3

回答已采纳

2回答

当我使用自己的程序爬行站点时，我应该使用什么用户代理

我用node.js做了爬虫。我想爬一些网站的基础上，每小时。我试着找出我应该使用的用户代理，但是我只得到了像谷歌机器人和必应机器人这样的结果。我不知道我能不能利用这些用户代理。

浏览 1提问于2018-09-10得票数 1

回答已采纳

5回答

C#中任何好的开源网络爬行框架

我已经决定在C#中构建爬虫。我对HttpWebRequest/HttpWebResponse类有很多不好的体验，众所周知，它们对于大型爬虫来说是高度错误和不稳定的。因此，我决定不在它们的基础上进行构建。即使在框架4.0中，它们也是有缺陷的。我是根据自己的亲身经历说的。如果他们知道有什么好的开源爬虫框架，比如java有nutch和apache commons，它们是非常稳定和高度健壮的库，我想要这里的专家们的意见，他们已经编码爬虫程序。编辑:我必须抓取的一些网站使用非常复杂的Java Scrip

浏览 2修改于2010-12-06得票数 9

回答已采纳

1回答

如何用一个位置路径从多个文件夹创建多个表，雅典娜也应该使用glue crawler来处理它

我尝试过这样做，但没有达到要求的结果-我有多个CSV文件在s3存储桶的文件夹中，但当它为它创建多个表时，雅典娜返回零结果，所以我为每个文件创建了一个不同的文件夹，然后它工作得很好。问题-但是如果将来要添加更多的文件夹，那么我必须去爬虫，并且必须为每个新添加的文件夹添加一个新的位置路径，所以有没有什么方法可以自动完成，或者其他一些方法。我使用胶水爬虫和s3桶雅典娜查询多个CSV文件运行。

浏览 22修改于2020-03-20得票数 0

回答已采纳

1回答

StormCrawler如何识别种子urls？

我使用风暴爬虫与mysql。如果一些种子的外链落在零号桶里会发生什么。在这种情况下，这些外链也会被视为种子吗？

浏览 1修改于2018-09-20得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

爬行，爬行，获取数据

学习多线程Java爬虫的良好开端

Web Crawler - Windows应用程序

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗？

PHP警告: exec()无法分叉

在谷歌应用程序引擎上为选定的网站运行网络爬虫？

AWS雅典娜没有发现csv文件的记录

抓取电子商务网站并聚合相同的产品

有关于如何抓取__doPostBack(‘...’)后面的页面的想法吗？

我可以抓取网站，下载特定的页面，并将呈现的版本保存为PHP中的PDF吗？

添加多个S3路径来粘合地形爬行器

Python -单元测试

实体框架-防止上下文中的缓存

使用Spring 3的动态作业调度

爬虫如何确保最大的覆盖率？

如何在Java中使用线程安全信号来暂停线程

当我使用自己的程序爬行站点时，我应该使用什么用户代理

C#中任何好的开源网络爬行框架

如何用一个位置路径从多个文件夹创建多个表，雅典娜也应该使用glue crawler来处理它

StormCrawler如何识别种子urls？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐