搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

我正在为一个客户建立一个亚马逊附属网站，使用亚马逊产品API从他们的目录中获取数据。我需要关于如何去对待其他搜索引擎爬虫机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率限制？

浏览 17提问于2016-09-16得票数 1

1回答

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

我的爬虫正在抓取所有网站并从中获取元数据信息。然后，我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我不希望爬虫击中亚马逊RDS，这会减慢它的速度。我应该使用亚马逊SimpleDB吗？然后，我可以读取SimpleDB，对网址进行杀毒，然后将其移动到Amazon RDS。

浏览 1修改于2012-03-22得票数 3

回答已采纳

1回答

从本地主机和外部ips访问robots.txt

我使用亚马逊云托管我的网站。在过去的三个月里，我收到了来自亚马逊团队的邮件，说网络流量很高。在收到邮件后，我们正在使我们的实例更安全，代码更清晰。当我检查这个的时候，我可以看到一个像这样的帖子，上面说谷歌爬虫可能导致了攻击。当我检查访问日志时，我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。谁能让我确定这个附件是由于谷歌爬虫或不？

浏览 1提问于2015-01-01得票数 0

1回答

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

谷歌网站管理员指南解释说，web服务器应该处理包含_escaped_fragment_的url请求(爬虫将www.example.com/ajax.html#!mystate修改为url 我的网站位于亚马逊S3上，我没有web服务器来处理此类请求。我如何才能确保爬虫获得提要，我的网站获得索引？

浏览 0提问于2012-10-09得票数 6

1回答

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

问题我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现，但是我不能为爬虫提供正确的文件，因为S3没有重写规则。.*)$ /snapshots/$1.html break; } 但在亚马逊S

浏览 3提问于2015-09-07得票数 6

回答已采纳

3回答

从Amazon抓取客户评论

我想知道是否有任何方法，我可以抓取客户评论的特定产品从亚马逊，而不被封锁。现在，我的爬虫几次就被堵住了。任何想法都会感激的。

浏览 0提问于2017-05-25得票数 2

1回答

使用多个EC2实例爬行

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工

浏览 2修改于2015-01-08得票数 0

回答已采纳

2回答

防止恶意爬虫/刮板和DDoS攻击的方法

基本上，爬虫在网站上运行的频率很高，导致负载增加。这会导致带宽消耗，从而给其他人带来糟糕的用户体验。我想知道像谷歌、亚马逊和电子海湾这样的网站是如何防止这些事情的：它们如何区分有用的爬虫(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意爬虫？

浏览 0修改于2011-10-14得票数 0

1回答

Python Scrapy代理在几轮之后就死了？

我想建立一个与scrapy亚马逊爬虫。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个代理，大多数都没有死，几乎都在另一个爬虫上工作，但几轮后就不在<

浏览 18提问于2019-11-07得票数 1

1回答

如何从网站的多个无关部分刮取数据(使用Scrapy)

我做了一个抓取网络爬虫，可以刮亚马逊。它可以通过使用关键字列表搜索项目，并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗？谢谢。

浏览 4提问于2020-12-14得票数 0

回答已采纳

1回答

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

我正在使用亚马逊网络服务创建一条数据传输线，我的数据存储在亚马逊S3存储桶中，我计划使用胶水爬虫在前缀下抓取数据以提取元数据，并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。有没有可能通过公共互联网将数据从亚马逊S3移动到胶水？是否有任何指向aws文档的链接，用于解释AWS服务在它们之间传输数据时使用哪些网络？

浏览 18修改于2021-06-29得票数 1

2回答

亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格

浏览 0提问于2018-04-19得票数 2

2回答

如何在AWS Glue Crawler中监视和控制DPU使用

在中，据说亚马逊网络服务默认为每个ETL任务分配10个DPU，每个开发端点默认分配5个DPU，即使两者都可以配置最少2个DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU，但我还没有看到爬虫程序有任何这样的配置。每个爬虫有固定数量的DPU吗？我们能控制这个数量吗？

浏览 0提问于2018-03-08得票数 9

3回答

当连接数量有限时如何快速抓取网页

我编写了一个web爬虫，通过使用www.amazon.com urllib2从抓取产品信息，但亚马逊似乎将每个IP的连接限制为1。

浏览 5修改于2013-04-28得票数 1

1回答

在网站上显示当前的亚马逊价格

这只是一个一般性的问题，但我想知道是否有一个现有的API可以显示亚马逊上某一商品的当前价格？正如在，如果价格变化，网站将反映这一变化以及。如果不是，构建一个网络爬虫来浏览并找到我所选择的亚马逊项目是否是构建我自己版本的最好的方式？如果是这样的话，您建议使用什么语言来开始这类项目。

浏览 0提问于2015-12-12得票数 0

回答已采纳

2回答

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift，为R.D.S添加了连接，并运行了一个爬虫程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表，如何传输此架构或Red-shift中的所有表我遵循了一个教程，但他在Red-shift中已经有了一个表，所以他使用第二个爬虫来获取模式，然后在源和目标上执行E.T.L作业。请帮助我，我是亚马逊Web服务的新手

浏览 0提问于2019-12-11得票数 1

1回答

如何在亚马逊EC2运行一个罐子？

我是亚马逊的新手。我有一个Java文件，它读取爬行数据的GBs，我正在使用AWS ToolKit for Eclipse运行这个文件。我听说网络爬虫在亚马逊运行了几个星期，没有将数据下载到开发人员机器中，也没有让开发人员在不关闭几个月的情况下打开机器。我想要的功能就像亚马逊Elastic中的“作业流”一样--减少。

浏览 4修改于2017-09-26得票数 5

回答已采纳

1回答

如何监控glue crawler执行状态？

我找不到一种方法来监控亚马逊网络服务上的glue crawler执行统计数据。我知道如何像这样监控胶水作业：。但我想知道是否有类似的方法来检查glue crawler的执行情况？我可以在Cloudwatch中查看爬虫的日志，但它的可读性不是很好。对于我来说，很难计算出在指定的时间段内发生了多少次调用。

浏览 21提问于2019-07-26得票数 1

回答已采纳

1回答

采用S3端点和存储桶策略的AWS胶水

当我删除存储桶策略时，即使IAM用户ID对存储桶没有访问权限，爬虫作业也是成功的。根据亚马逊网络服务文档，亚马逊网络服务胶水使用S3端点。如果是这样，为什么我会得到这个错误？

浏览 28提问于2020-03-25得票数 0

3回答

AWS Glue ETL作业缺少crawler可见的字段

我有一个由爬虫创建的表，指向存储在s3中的一些拼图文件。从Glue data catalogue GUI中，我可以看到许多字段(53)。编辑:亚马逊网络服务论坛上的似乎是由于同样的问题-显然PySpark试图推断自己的模式，而不是使用爬虫找到的模式。

浏览 15修改于2018-12-12得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

从本地主机和外部ips访问robots.txt

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

从Amazon抓取客户评论

使用多个EC2实例爬行

防止恶意爬虫/刮板和DDoS攻击的方法

Python Scrapy代理在几轮之后就死了？

如何从网站的多个无关部分刮取数据(使用Scrapy)

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格

如何在AWS Glue Crawler中监视和控制DPU使用

当连接数量有限时如何快速抓取网页

在网站上显示当前的亚马逊价格

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

如何在亚马逊EC2运行一个罐子？

如何监控glue crawler执行状态？

采用S3端点和存储桶策略的AWS胶水

AWS Glue ETL作业缺少crawler可见的字段

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐