腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何限制非谷歌搜索引擎机器人的爬行速度,使它们不会使我超过外部API请求限制?
我正在为一个客户建立一个
亚马逊
附属网站,使用
亚马逊
产品API从他们的目录中获取数据。我需要关于如何去对待其他搜索引擎
爬虫
机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过
亚马逊
的API速率限制?
浏览 17
提问于2016-09-16
得票数 1
1
回答
我应该使用什么数据存储来存储来自
爬虫
程序的临时数据?
我的
爬虫
正在抓取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我不希望
爬虫
击中
亚马逊
RDS,这会减慢它的速度。 我应该使用
亚马逊
SimpleDB吗?然后,我可以读取SimpleDB,对网址进行杀毒,然后将其移动到Amazon RDS。
浏览 1
修改于2012-03-22
得票数 3
回答已采纳
1
回答
从本地主机和外部ips访问robots.txt
我使用
亚马逊
云托管我的网站。在过去的三个月里,我收到了来自
亚马逊
团队的邮件,说网络流量很高。在收到邮件后,我们正在使我们的实例更安全,代码更清晰。当我检查这个的时候,我可以看到一个像这样的帖子,上面说谷歌
爬虫
可能导致了攻击。当我检查访问日志时,我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。谁能让我确定这个附件是由于谷歌
爬虫
或不?
浏览 1
提问于2015-01-01
得票数 0
1
回答
如何确保web crawler适用于托管在
亚马逊
S3上的网站并使用AJAX
谷歌网站管理员指南解释说,web服务器应该处理包含_escaped_fragment_的url请求(
爬虫
将www.example.com/ajax.html#!mystate修改为url 我的网站位于
亚马逊
S3上,我没有web服务器来处理此类请求。我如何才能确保
爬虫
获得提要,我的网站获得索引?
浏览 0
提问于2012-10-09
得票数 6
1
回答
如何在使用
亚马逊
S3时将
爬虫
请求重定向到预呈现的页面?
问题我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现,但是我不能为
爬虫
提供正确的文件,因为S3没有重写规则。.*)$ /snapshots/$1.html break; } 但在
亚马逊
S
浏览 3
提问于2015-09-07
得票数 6
回答已采纳
3
回答
从Amazon抓取客户评论
我想知道是否有任何方法,我可以抓取客户评论的特定产品从
亚马逊
,而不被封锁。现在,我的
爬虫
几次就被堵住了。任何想法都会感激的。
浏览 0
提问于2017-05-25
得票数 2
1
回答
使用多个EC2实例爬行
我用python编写了一个爬行过程,它运行在
亚马逊
上的一个ec2实例上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 有冗余,所以如果一个
爬虫
被挂断,其余的
爬虫
可以继续工
浏览 2
修改于2015-01-08
得票数 0
回答已采纳
2
回答
防止恶意
爬虫
/刮板和DDoS攻击的方法
基本上,
爬虫
在网站上运行的频率很高,导致负载增加。这会导致带宽消耗,从而给其他人带来糟糕的用户体验。我想知道像谷歌、
亚马逊
和电子海湾这样的网站是如何防止这些事情的: 它们如何区分有用的
爬虫
(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意
爬虫
?
浏览 0
修改于2011-10-14
得票数 0
1
回答
Python Scrapy代理在几轮之后就死了?
我想建立一个与scrapy
亚马逊
爬虫
。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个代理,大多数都没有死,几乎都在另一个
爬虫
上工作,但几轮后就不在<
浏览 18
提问于2019-11-07
得票数 1
1
回答
如何从网站的多个无关部分刮取数据(使用Scrapy)
我做了一个抓取网络
爬虫
,可以刮
亚马逊
。它可以通过使用关键字列表搜索项目,并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗?谢谢。
浏览 4
提问于2020-12-14
得票数 0
回答已采纳
1
回答
当我使用job glue时,
亚马逊
S3中的数据是否会出现在公共互联网上?
我正在使用
亚马逊
网络服务创建一条数据传输线,我的数据存储在
亚马逊
S3存储桶中,我计划使用胶水
爬虫
在前缀下抓取数据以提取元数据,并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。有没有可能通过公共互联网将数据从
亚马逊
S3移动到胶水? 是否有任何指向aws文档的链接,用于解释AWS服务在它们之间传输数据时使用哪些网络?
浏览 18
修改于2021-06-29
得票数 1
2
回答
亚马逊
网络服务胶水
爬虫
:在s3中想要单独的文件夹表格
我的s3文件结构是:│ ├── customer_1│ │ ├── year=2017│ │ | │ ├── sometype-2017-11-01.parquet│ | | | ├── ...│ │ | │ ├── sometype-2017-12-01.parqu
浏览 0
提问于2018-04-19
得票数 2
2
回答
如何在AWS Glue Crawler中监视和控制DPU使用
在中,据说
亚马逊
网络服务默认为每个ETL任务分配10个DPU,每个开发端点默认分配5个DPU,即使两者都可以配置最少2个DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU,但我还没有看到
爬虫
程序有任何这样的配置。 每个
爬虫
有固定数量的DPU吗?我们能控制这个数量吗?
浏览 0
提问于2018-03-08
得票数 9
3
回答
当连接数量有限时如何快速抓取网页
我编写了一个web
爬虫
,通过使用www.amazon.com urllib2从抓取产品信息,但
亚马逊
似乎将每个IP的连接限制为1。
浏览 5
修改于2013-04-28
得票数 1
1
回答
在网站上显示当前的
亚马逊
价格
这只是一个一般性的问题,但我想知道是否有一个现有的API可以显示
亚马逊
上某一商品的当前价格?正如在,如果价格变化,网站将反映这一变化以及。如果不是,构建一个网络
爬虫
来浏览并找到我所选择的
亚马逊
项目是否是构建我自己版本的最好的方式?如果是这样的话,您建议使用什么语言来开始这类项目。
浏览 0
提问于2015-12-12
得票数 0
回答已采纳
2
回答
有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)
我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift,为R.D.S添加了连接,并运行了一个
爬虫
程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表,如何传输此架构或Red-shift中的所有表 我遵循了一个教程,但他在Red-shift中已经有了一个表,所以他使用第二个
爬虫
来获取模式,然后在源和目标上执行E.T.L作业。请帮助我,我是
亚马逊
Web服务的新手
浏览 0
提问于2019-12-11
得票数 1
1
回答
如何在
亚马逊
EC2运行一个罐子?
我是
亚马逊
的新手。我有一个Java文件,它读取爬行数据的GBs,我正在使用AWS ToolKit for Eclipse运行这个文件。我听说网络
爬虫
在
亚马逊
运行了几个星期,没有将数据下载到开发人员机器中,也没有让开发人员在不关闭几个月的情况下打开机器。 我想要的功能就像
亚马逊
Elastic中的“作业流”一样--减少。
浏览 4
修改于2017-09-26
得票数 5
回答已采纳
1
回答
如何监控glue crawler执行状态?
我找不到一种方法来监控
亚马逊
网络服务上的glue crawler执行统计数据。我知道如何像这样监控胶水作业:。但我想知道是否有类似的方法来检查glue crawler的执行情况?我可以在Cloudwatch中查看
爬虫
的日志,但它的可读性不是很好。对于我来说,很难计算出在指定的时间段内发生了多少次调用。
浏览 21
提问于2019-07-26
得票数 1
回答已采纳
1
回答
采用S3端点和存储桶策略的AWS胶水
当我删除存储桶策略时,即使IAM用户ID对存储桶没有访问权限,
爬虫
作业也是成功的。 根据
亚马逊
网络服务文档,
亚马逊
网络服务胶水使用S3端点。如果是这样,为什么我会得到这个错误?
浏览 28
提问于2020-03-25
得票数 0
3
回答
AWS Glue ETL作业缺少crawler可见的字段
我有一个由
爬虫
创建的表,指向存储在s3中的一些拼图文件。从Glue data catalogue GUI中,我可以看到许多字段(53)。编辑:
亚马逊
网络服务论坛上的似乎是由于同样的问题-显然PySpark试图推断自己的模式,而不是使用
爬虫
找到的模式。
浏览 15
修改于2018-12-12
得票数 2
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券