搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

我正在为一个客户建立一个亚马逊附属网站，使用亚马逊产品API从他们的目录中获取数据。我需要关于如何去对待其他搜索引擎爬虫机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率限制？

浏览 17提问于2016-09-16得票数 1

1回答

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

我的爬虫正在抓取所有网站并从中获取元数据信息。然后，我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我的问题是，我应该使用哪个数据存储来存储用于清理目的的数据(删除不需要的URL)。我不希望爬虫击中亚马逊RDS，这会减慢它的速度。我应该使用亚马逊SimpleDB吗？

浏览 1修改于2012-03-22得票数 3

回答已采纳

1回答

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

我正在使用亚马逊网络服务创建一条数据传输线，我的数据存储在亚马逊S3存储桶中，我计划使用胶水爬虫在前缀下抓取数据以提取元数据，并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。有没有可能通过公共互联网将数据从亚马逊S3移动到胶水？是否有任何指向aws文档的链接，用于解释AWS服务在它们之间传输数据时使用哪些网络？

浏览 18修改于2021-06-29得票数 1

1回答

如何从网站的多个无关部分刮取数据(使用Scrapy)

我做了一个抓取网络爬虫，可以刮亚马逊。它可以通过使用关键字列表搜索项目，并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗？谢谢。

浏览 4提问于2020-12-14得票数 0

回答已采纳

2回答

防止恶意爬虫/刮板和DDoS攻击的方法

基本上，爬虫在网站上运行的频率很高，导致负载增加。这会导致带宽消耗，从而给其他人带来糟糕的用户体验。我想知道像谷歌、亚马逊和电子海湾这样的网站是如何防止这些事情的：它们如何区分有用的爬虫(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意爬虫？不能设置诸如连接或数据包/时间/ip之类的阈值，因为这将导致站点上的适当客户的用户体验较差。

浏览 0修改于2011-10-14得票数 0

1回答

从本地主机和外部ips访问robots.txt

我使用亚马逊云托管我的网站。在过去的三个月里，我收到了来自亚马逊团队的邮件，说网络流量很高。在收到邮件后，我们正在使我们的实例更安全，代码更清晰。当我检查这个的时候，我可以看到一个像这样的帖子，上面说谷歌爬虫可能导致了攻击。当我检查访问日志时，我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。谁能让我确定这个附件是由于谷歌爬虫或不？

浏览 1提问于2015-01-01得票数 0

1回答

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

谷歌网站管理员指南解释说，web服务器应该处理包含_escaped_fragment_的url请求(爬虫将www.example.com/ajax.html#!mystate修改为url 我的网站位于亚马逊S3上，我没有web服务器来处理此类请求。我如何才能确保爬虫获得提要，我的网站获得索引？

浏览 0提问于2012-10-09得票数 6

1回答

我是亚马逊的新手。我有一个Java文件，它读取爬行数据的GBs，我正在使用AWS ToolKit for Eclipse运行这个文件。这里的缺点是，如果我需要读取所有爬行的数据，我必须让我的机器运行数周，这是不可能的。除此之外，我不能将GBs数据下载到我的本地PC上(因为它正在读取数据)。我听说网络爬虫在亚马逊运行了几个星期，没有将数据下载到开发人员机器中，也没有让开发人员在不关闭几个月的情况下打开机器。我想要的功能就像亚马逊Ela

浏览 4修改于2017-09-26得票数 5

回答已采纳

1回答

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

问题我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现，但是我不能为爬虫提供正确的文件，因为S3没有重写规则。.*)$ /snapshots/$1.html break; } 但在亚马逊S

浏览 3提问于2015-09-07得票数 6

回答已采纳

3回答

从Amazon抓取客户评论

我想知道是否有任何方法，我可以抓取客户评论的特定产品从亚马逊，而不被封锁。现在，我的爬虫几次就被堵住了。任何想法都会感激的。

浏览 0提问于2017-05-25得票数 2

2回答

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift，为R.D.S添加了连接，并运行了一个爬虫程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表，如何传输此架构或Red-shift中的所有表我遵循了一个教程，但他在Red-shift中已经有了一个表，所以他使用第二个爬虫来获取模式，然后在源和目标上执行E.T.L作业。请帮助我，我是亚马逊Web服务的新手

浏览 0提问于2019-12-11得票数 1

1回答

如何监控glue crawler执行状态？

我正在使用AWS Glue来做数据抽取。我找不到一种方法来监控亚马逊网络服务上的glue crawler执行统计数据。我知道如何像这样监控胶水作业：。我可以在Cloudwatch中查看爬虫的日志，但它的可读性不是很好。对于我来说，很难计算出在指定的时间段内发生了多少次调用。

浏览 21提问于2019-07-26得票数 1

回答已采纳

1回答

AWS glue中包含哪些数据类别？

我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables.我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录？或者它只包含目录？如何知道glue数据库中表的大小？以及它使用的数据库类型，如no

浏览 17修改于2019-07-25得票数 1

回答已采纳

1回答

使用多个EC2实例爬行

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工

浏览 2修改于2015-01-08得票数 0

回答已采纳

1回答

自动与客户端共享EC2实例中的单个文件夹

我有一个从我的亚马逊网络服务EC2实例上的每日爬虫计算的数据，我需要与亚马逊网络服务之外的客户和其他用户共享这些数据。数据每天都会更新，每当信息发生变化时，客户端都需要访问这些信息。目前，我已经自动上传新的数据到drop box，但这并不理想，因为它只能通过浏览器访问，而不是直接从磁盘，它是可用的任何人与链接。将此数据(仅此数据文件夹)从我的EC2实例放到我的客户端可以查看的共享文件夹的最佳方法是什么？任何建议都是非常感谢的！

浏览 0提问于2019-03-14得票数 0

1回答

Python Scrapy代理在几轮之后就死了？

我想建立一个与scrapy亚马逊爬虫。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个代理，大多数都没有死，几乎都在另一个爬虫上工作，但几轮后就不在<

浏览 18提问于2019-11-07得票数 1

3回答

从亚马逊网络服务DataLake到远程数据服务

我对DataLakes比较陌生，我正在为一个亚马逊网络服务项目做一些研究。我已经创建了一个DataLake，并从胶水爬虫中生成了表，我可以在S3中查看数据并使用雅典娜进行查询。到目前一切尚好。需要将存储在datalake中的部分数据转换为RDS，以便应用程序读取数据。从S3 DataLake到RDS的ETL的最佳解决方案是什么？

浏览 6修改于2019-11-09得票数 1

2回答

如何在AWS Glue Crawler中监视和控制DPU使用

在中，据说亚马逊网络服务默认为每个ETL任务分配10个DPU，每个开发端点默认分配5个DPU，即使两者都可以配置最少2个DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU，但我还没有看到爬虫程序有任何这样的配置。每个爬虫有固定数量的DPU吗？我们能控制这个数量吗？

浏览 0提问于2018-03-08得票数 9

1回答

Boto3启动胶爬行器与新的s3输入

我有一个亚马逊胶水爬虫，它查看一个特定的s3位置，包含avro文件。我有一个进程，它在那个位置的一个新的子文件夹中输出文件。一旦我手动运行爬虫，新的子文件夹将被视为数据库中的一个新表，它也将是可从雅典娜查询的。glue_client

浏览 0提问于2018-08-21得票数 1

回答已采纳

3回答

当连接数量有限时如何快速抓取网页

我编写了一个web爬虫，通过使用www.amazon.com urllib2从抓取产品信息，但亚马逊似乎将每个IP的连接限制为1。

浏览 5修改于2013-04-28得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

如何从网站的多个无关部分刮取数据(使用Scrapy)

防止恶意爬虫/刮板和DDoS攻击的方法

从本地主机和外部ips访问robots.txt

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

如何在亚马逊EC2运行一个罐子？

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

从Amazon抓取客户评论

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

如何监控glue crawler执行状态？

AWS glue中包含哪些数据类别？

使用多个EC2实例爬行

自动与客户端共享EC2实例中的单个文件夹

Python Scrapy代理在几轮之后就死了？

从亚马逊网络服务DataLake到远程数据服务

如何在AWS Glue Crawler中监视和控制DPU使用

Boto3启动胶爬行器与新的s3输入

当连接数量有限时如何快速抓取网页

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐