腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何限制非谷歌搜索引擎机器人的爬行速度,使它们不会使我超过外部
API
请求限制?
我正在为一个客户建立一个
亚马逊
附属网站,使用
亚马逊
产品
API
从他们的目录中获取数据。我需要关于如何去对待其他搜索引擎
爬虫
机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过
亚马逊
的
API
速率限制?
浏览 17
提问于2016-09-16
得票数 1
1
回答
我应该使用什么数据存储来存储来自
爬虫
程序的临时数据?
我的
爬虫
正在抓取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我不希望
爬虫
击中
亚马逊
RDS,这会减慢它的速度。 我应该使用
亚马逊
SimpleDB吗?然后,我可以读取SimpleDB,对网址进行杀毒,然后将其移动到Amazon RDS。
浏览 1
修改于2012-03-22
得票数 3
回答已采纳
1
回答
在网站上显示当前的
亚马逊
价格
这只是一个一般性的问题,但我想知道是否有一个现有的
API
可以显示
亚马逊
上某一商品的当前价格?正如在,如果价格变化,网站将反映这一变化以及。如果不是,构建一个网络
爬虫
来浏览并找到我所选择的
亚马逊
项目是否是构建我自己版本的最好的方式?如果是这样的话,您建议使用什么语言来开始这类项目。
浏览 0
提问于2015-12-12
得票数 0
回答已采纳
1
回答
从本地主机和外部ips访问robots.txt
我使用
亚马逊
云托管我的网站。在过去的三个月里,我收到了来自
亚马逊
团队的邮件,说网络流量很高。在收到邮件后,我们正在使我们的实例更安全,代码更清晰。当我检查这个的时候,我可以看到一个像这样的帖子,上面说谷歌
爬虫
可能导致了攻击。当我检查访问日志时,我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。谁能让我确定这个附件是由于谷歌
爬虫
或不?
浏览 1
提问于2015-01-01
得票数 0
1
回答
如何确保web crawler适用于托管在
亚马逊
S3上的网站并使用AJAX
谷歌网站管理员指南解释说,web服务器应该处理包含_escaped_fragment_的url请求(
爬虫
将www.example.com/ajax.html#!mystate修改为url 我的网站位于
亚马逊
S3上,我没有web服务器来处理此类请求。我如何才能确保
爬虫
获得提要,我的网站获得索引?
浏览 0
提问于2012-10-09
得票数 6
1
回答
创建具有多个s3路径的aws glue
爬虫
我想创建boto3应用程序接口与
亚马逊
网络服务胶水
爬虫
按照以下文件。https://boto3.amazonaws.com/v1/documentation/
api
/latest/reference/services/glue.html#Glue.Client.create_crawler], },
浏览 15
提问于2020-09-23
得票数 0
1
回答
如何在使用
亚马逊
S3时将
爬虫
请求重定向到预呈现的页面?
问题我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现,但是我不能为
爬虫
提供正确的文件,因为S3没有重写规则。.*)$ /snapshots/$1.html break; } 但在
亚马逊
S
浏览 3
提问于2015-09-07
得票数 6
回答已采纳
3
回答
从Amazon抓取客户评论
我想知道是否有任何方法,我可以抓取客户评论的特定产品从
亚马逊
,而不被封锁。现在,我的
爬虫
几次就被堵住了。任何想法都会感激的。
浏览 0
提问于2017-05-25
得票数 2
1
回答
使用多个EC2实例爬行
我用python编写了一个爬行过程,它运行在
亚马逊
上的一个ec2实例上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 有冗余,所以如果一个
爬虫
被挂断,其余的
爬虫
可以继续工
浏览 2
修改于2015-01-08
得票数 0
回答已采纳
2
回答
防止恶意
爬虫
/刮板和DDoS攻击的方法
基本上,
爬虫
在网站上运行的频率很高,导致负载增加。这会导致带宽消耗,从而给其他人带来糟糕的用户体验。我想知道像谷歌、
亚马逊
和电子海湾这样的网站是如何防止这些事情的: 它们如何区分有用的
爬虫
(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意
爬虫
?
浏览 0
修改于2011-10-14
得票数 0
1
回答
Python Scrapy代理在几轮之后就死了?
我想建立一个与scrapy
亚马逊
爬虫
。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个代理,大多数都没有死,几乎都在另一个
爬虫
上工作,但几轮后就不在<
浏览 18
提问于2019-11-07
得票数 1
1
回答
如何从网站的多个无关部分刮取数据(使用Scrapy)
我做了一个抓取网络
爬虫
,可以刮
亚马逊
。它可以通过使用关键字列表搜索项目,并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗?谢谢。
浏览 4
提问于2020-12-14
得票数 0
回答已采纳
1
回答
当我使用job glue时,
亚马逊
S3中的数据是否会出现在公共互联网上?
我正在使用
亚马逊
网络服务创建一条数据传输线,我的数据存储在
亚马逊
S3存储桶中,我计划使用胶水
爬虫
在前缀下抓取数据以提取元数据,并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。有没有可能通过公共互联网将数据从
亚马逊
S3移动到胶水? 是否有任何指向aws文档的链接,用于解释AWS服务在它们之间传输数据时使用哪些网络?
浏览 18
修改于2021-06-29
得票数 1
2
回答
如何在AWS Glue Crawler中监视和控制DPU使用
在中,据说
亚马逊
网络服务默认为每个ETL任务分配10个DPU,每个开发端点默认分配5个DPU,即使两者都可以配置最少2个DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU,但我还没有看到
爬虫
程序有任何这样的配置。 每个
爬虫
有固定数量的DPU吗?我们能控制这个数量吗?
浏览 0
提问于2018-03-08
得票数 9
3
回答
当连接数量有限时如何快速抓取网页
我编写了一个web
爬虫
,通过使用www.amazon.com urllib2从抓取产品信息,但
亚马逊
似乎将每个IP的连接限制为1。
浏览 5
修改于2013-04-28
得票数 1
2
回答
有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)
我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift,为R.D.S添加了连接,并运行了一个
爬虫
程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表,如何传输此架构或Red-shift中的所有表 我遵循了一个教程,但他在Red-shift中已经有了一个表,所以他使用第二个
爬虫
来获取模式,然后在源和目标上执行E.T.L作业。请帮助我,我是
亚马逊
Web服务的新手
浏览 0
提问于2019-12-11
得票数 1
1
回答
如何在
亚马逊
EC2运行一个罐子?
我是
亚马逊
的新手。我有一个Java文件,它读取爬行数据的GBs,我正在使用AWS ToolKit for Eclipse运行这个文件。我听说网络
爬虫
在
亚马逊
运行了几个星期,没有将数据下载到开发人员机器中,也没有让开发人员在不关闭几个月的情况下打开机器。 我想要的功能就像
亚马逊
Elastic中的“作业流”一样--减少。
浏览 4
修改于2017-09-26
得票数 5
回答已采纳
3
回答
我们只能使用amazon product Advertising
API
获得Amazon prime产品吗?
我已经搜索了如何使用
亚马逊
产品广告
API
,现在我可以使用
亚马逊
产品广告
API
搜索不同的产品,它工作得很好。但据我所知,我们只能从我们的账户中获得
亚马逊
优质产品,当我使用
亚马逊
网站登录
亚马逊
账户并搜索任何产品时,我发现只有
亚马逊
优质产品。但是,当我试图获得
亚马逊
产品使用
亚马逊
产品广告
API
与我的安全id等
亚马逊
产品广告
API
给我们所有的产品在搜索,但我只需要主要的产
浏览 2
修改于2014-05-26
得票数 9
2
回答
如何通过"Amazon MWS order
API
“获取”非
亚马逊
“销售渠道订单
我正在使用amazon MWS
api
获取完整的
亚马逊
订单列表。
亚马逊
( Amazon )和卖方(MFN)订单都满足了这样的
api
,这是非常好的。登录
亚马逊
卖家中心后,我可以看到所有销售渠道(
亚马逊
、非
亚马逊
)的订单。但问题是,此
api
不会返回“非Amazon”销售渠道订单。
亚马逊</em
浏览 1
提问于2012-12-15
得票数 2
回答已采纳
1
回答
如何监控glue crawler执行状态?
我找不到一种方法来监控
亚马逊
网络服务上的glue crawler执行统计数据。我知道如何像这样监控胶水作业:。但我想知道是否有类似的方法来检查glue crawler的执行情况?我可以在Cloudwatch中查看
爬虫
的日志,但它的可读性不是很好。对于我来说,很难计算出在指定的时间段内发生了多少次调用。
浏览 21
提问于2019-07-26
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券