搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

我正在为一个客户建立一个亚马逊附属网站，使用亚马逊产品API从他们的目录中获取数据。我需要关于如何去对待其他搜索引擎爬虫机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率限制？

浏览 17提问于2016-09-16得票数 1

1回答

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

我的爬虫正在抓取所有网站并从中获取元数据信息。然后，我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我不希望爬虫击中亚马逊RDS，这会减慢它的速度。我应该使用亚马逊SimpleDB吗？然后，我可以读取SimpleDB，对网址进行杀毒，然后将其移动到Amazon RDS。

浏览 1修改于2012-03-22得票数 3

回答已采纳

1回答

在网站上显示当前的亚马逊价格

这只是一个一般性的问题，但我想知道是否有一个现有的API可以显示亚马逊上某一商品的当前价格？正如在，如果价格变化，网站将反映这一变化以及。如果不是，构建一个网络爬虫来浏览并找到我所选择的亚马逊项目是否是构建我自己版本的最好的方式？如果是这样的话，您建议使用什么语言来开始这类项目。

浏览 0提问于2015-12-12得票数 0

回答已采纳

1回答

从本地主机和外部ips访问robots.txt

我使用亚马逊云托管我的网站。在过去的三个月里，我收到了来自亚马逊团队的邮件，说网络流量很高。在收到邮件后，我们正在使我们的实例更安全，代码更清晰。当我检查这个的时候，我可以看到一个像这样的帖子，上面说谷歌爬虫可能导致了攻击。当我检查访问日志时，我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。谁能让我确定这个附件是由于谷歌爬虫或不？

浏览 1提问于2015-01-01得票数 0

1回答

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

谷歌网站管理员指南解释说，web服务器应该处理包含_escaped_fragment_的url请求(爬虫将www.example.com/ajax.html#!mystate修改为url 我的网站位于亚马逊S3上，我没有web服务器来处理此类请求。我如何才能确保爬虫获得提要，我的网站获得索引？

浏览 0提问于2012-10-09得票数 6

1回答

创建具有多个s3路径的aws glue爬虫

我想创建boto3应用程序接口与亚马逊网络服务胶水爬虫按照以下文件。https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html#Glue.Client.create_crawler], },

浏览 15提问于2020-09-23得票数 0

1回答

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

问题我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现，但是我不能为爬虫提供正确的文件，因为S3没有重写规则。.*)$ /snapshots/$1.html break; } 但在亚马逊S

浏览 3提问于2015-09-07得票数 6

回答已采纳

3回答

从Amazon抓取客户评论

我想知道是否有任何方法，我可以抓取客户评论的特定产品从亚马逊，而不被封锁。现在，我的爬虫几次就被堵住了。任何想法都会感激的。

浏览 0提问于2017-05-25得票数 2

1回答

使用多个EC2实例爬行

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工

浏览 2修改于2015-01-08得票数 0

回答已采纳

2回答

防止恶意爬虫/刮板和DDoS攻击的方法

基本上，爬虫在网站上运行的频率很高，导致负载增加。这会导致带宽消耗，从而给其他人带来糟糕的用户体验。我想知道像谷歌、亚马逊和电子海湾这样的网站是如何防止这些事情的：它们如何区分有用的爬虫(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意爬虫？

浏览 0修改于2011-10-14得票数 0

1回答

Python Scrapy代理在几轮之后就死了？

我想建立一个与scrapy亚马逊爬虫。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个代理，大多数都没有死，几乎都在另一个爬虫上工作，但几轮后就不在<

浏览 18提问于2019-11-07得票数 1

1回答

如何从网站的多个无关部分刮取数据(使用Scrapy)

我做了一个抓取网络爬虫，可以刮亚马逊。它可以通过使用关键字列表搜索项目，并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗？谢谢。

浏览 4提问于2020-12-14得票数 0

回答已采纳

1回答

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

我正在使用亚马逊网络服务创建一条数据传输线，我的数据存储在亚马逊S3存储桶中，我计划使用胶水爬虫在前缀下抓取数据以提取元数据，并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。有没有可能通过公共互联网将数据从亚马逊S3移动到胶水？是否有任何指向aws文档的链接，用于解释AWS服务在它们之间传输数据时使用哪些网络？

浏览 18修改于2021-06-29得票数 1

2回答

如何在AWS Glue Crawler中监视和控制DPU使用

在中，据说亚马逊网络服务默认为每个ETL任务分配10个DPU，每个开发端点默认分配5个DPU，即使两者都可以配置最少2个DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU，但我还没有看到爬虫程序有任何这样的配置。每个爬虫有固定数量的DPU吗？我们能控制这个数量吗？

浏览 0提问于2018-03-08得票数 9

3回答

当连接数量有限时如何快速抓取网页

我编写了一个web爬虫，通过使用www.amazon.com urllib2从抓取产品信息，但亚马逊似乎将每个IP的连接限制为1。

浏览 5修改于2013-04-28得票数 1

2回答

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift，为R.D.S添加了连接，并运行了一个爬虫程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表，如何传输此架构或Red-shift中的所有表我遵循了一个教程，但他在Red-shift中已经有了一个表，所以他使用第二个爬虫来获取模式，然后在源和目标上执行E.T.L作业。请帮助我，我是亚马逊Web服务的新手

浏览 0提问于2019-12-11得票数 1

1回答

如何在亚马逊EC2运行一个罐子？

我是亚马逊的新手。我有一个Java文件，它读取爬行数据的GBs，我正在使用AWS ToolKit for Eclipse运行这个文件。我听说网络爬虫在亚马逊运行了几个星期，没有将数据下载到开发人员机器中，也没有让开发人员在不关闭几个月的情况下打开机器。我想要的功能就像亚马逊Elastic中的“作业流”一样--减少。

浏览 4修改于2017-09-26得票数 5

回答已采纳

3回答

我们只能使用amazon product Advertising API获得Amazon prime产品吗？

我已经搜索了如何使用亚马逊产品广告API，现在我可以使用亚马逊产品广告API搜索不同的产品，它工作得很好。但据我所知，我们只能从我们的账户中获得亚马逊优质产品，当我使用亚马逊网站登录亚马逊账户并搜索任何产品时，我发现只有亚马逊优质产品。但是，当我试图获得亚马逊产品使用亚马逊产品广告API与我的安全id等亚马逊产品广告API给我们所有的产品在搜索，但我只需要主要的产

浏览 2修改于2014-05-26得票数 9

2回答

如何通过"Amazon MWS order API“获取”非亚马逊“销售渠道订单

我正在使用amazon MWS api获取完整的亚马逊订单列表。亚马逊( Amazon )和卖方(MFN)订单都满足了这样的api，这是非常好的。登录亚马逊卖家中心后，我可以看到所有销售渠道(亚马逊、非亚马逊)的订单。但问题是，此api不会返回“非Amazon”销售渠道订单。亚马逊</em

浏览 1提问于2012-12-15得票数 2

回答已采纳

1回答

如何监控glue crawler执行状态？

我找不到一种方法来监控亚马逊网络服务上的glue crawler执行统计数据。我知道如何像这样监控胶水作业：。但我想知道是否有类似的方法来检查glue crawler的执行情况？我可以在Cloudwatch中查看爬虫的日志，但它的可读性不是很好。对于我来说，很难计算出在指定的时间段内发生了多少次调用。

浏览 21提问于2019-07-26得票数 1

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

在网站上显示当前的亚马逊价格

从本地主机和外部ips访问robots.txt

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

创建具有多个s3路径的aws glue爬虫

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

从Amazon抓取客户评论

使用多个EC2实例爬行

防止恶意爬虫/刮板和DDoS攻击的方法

Python Scrapy代理在几轮之后就死了？

如何从网站的多个无关部分刮取数据(使用Scrapy)

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

如何在AWS Glue Crawler中监视和控制DPU使用

当连接数量有限时如何快速抓取网页

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

如何在亚马逊EC2运行一个罐子？

我们只能使用amazon product Advertising API获得Amazon prime产品吗？

如何通过"Amazon MWS order API“获取”非亚马逊“销售渠道订单

如何监控glue crawler执行状态？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐