腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
防止恶意
爬虫
/刮板和DDoS攻击的方法
基本上,
爬虫
在网站上运行的频率很高,导致负载增加。这会导致带宽消耗,从而给其他人带来糟糕的用户体验。我想知道像谷歌、
亚马逊
和电子海湾这样的网站是如何防止这些事情的:不能设置诸如连接或数据包/时间/ip之类的阈值,因为这将导致站点上的适当客户的用户体验较差。
浏览 0
修改于2011-10-14
得票数 0
1
回答
如何限制非谷歌搜索引擎机器人的爬行速度,使它们不会使我超过外部API请求限制?
我正在为一个客户建立一个
亚马逊
附属网站,使用
亚马逊
产品API从他们的目录中获取数据。我需要关于如何去对待其他搜索引擎
爬虫
机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过
亚马逊
的API速率限制?
浏览 17
提问于2016-09-16
得票数 1
1
回答
在雅典娜中获取
亚马逊
DynamoDB数据
我有
亚马逊
DynamoDB中的信息,这些信息经常更新/添加行(通过接收来自Kinesis的事件并使用Lambda处理这些事件来更新)。我知道其中一些选择: 开始将原始事件放在S3中,而不仅仅是DynamoDB中,并制作一个只扫描新记录的胶水
爬虫
。这将
浏览 1
修改于2021-10-23
得票数 2
1
回答
我应该使用什么数据存储来存储来自
爬虫
程序的临时数据?
我的
爬虫
正在抓取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我不希望
爬虫
击中
亚马逊
RDS,这会减慢它的速度。 我应该使用
亚马逊
SimpleDB吗?然后,我可以读取SimpleDB,对网址进行杀毒,然后将其移动到Amazon RDS。
浏览 1
修改于2012-03-22
得票数 3
回答已采纳
1
回答
从本地主机和外部ips访问robots.txt
我使用
亚马逊
云托管我的网站。在过去的三个月里,我收到了来自
亚马逊
团队的邮件,说网络流量很高。在收到邮件后,我们正在使我们的实例更安全,代码更清晰。当我检查这个的时候,我可以看到一个像这样的帖子,上面说谷歌
爬虫
可能导致了攻击。当我检查访问日志时,我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。谁能让我确定这个附件是由于谷歌
爬虫
或不?
浏览 1
提问于2015-01-01
得票数 0
1
回答
如何确保web crawler适用于托管在
亚马逊
S3上的网站并使用AJAX
谷歌网站管理员指南解释说,web服务器应该处理包含_escaped_fragment_的url请求(
爬虫
将www.example.com/ajax.html#!mystate修改为url 我的网站位于
亚马逊
S3上,我没有web服务器来处理此类请求。我如何才能确保
爬虫
获得提要,我的网站获得索引?
浏览 0
提问于2012-10-09
得票数 6
1
回答
如何在使用
亚马逊
S3时将
爬虫
请求重定向到预呈现的页面?
问题我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现,但是我不能为
爬虫
提供正确的文件,因为S3没有重写规则。.*)$ /snapshots/$1.html break; } 但在
亚马逊
S
浏览 3
提问于2015-09-07
得票数 6
回答已采纳
3
回答
从Amazon抓取客户评论
我想知道是否有任何方法,我可以抓取客户评论的特定产品从
亚马逊
,而不被封锁。现在,我的
爬虫
几次就被堵住了。任何想法都会感激的。
浏览 0
提问于2017-05-25
得票数 2
1
回答
import.io如何将爬行的数据
实时
写入文件
目前,我在import.io中设置了一个
爬虫
,它可以通过非常多的页面(数万页)进行爬行。一旦这个
爬虫
完成,我试图查看数据,但只看到它已经全部丢失,我认为这是由于纯粹的量。是否有一种方法来设置我的
爬虫
,以便在收集数据时
实时
地将数据写入我的硬盘上的文件?
浏览 0
提问于2015-07-23
得票数 2
回答已采纳
1
回答
使用多个EC2实例爬行
我用python编写了一个爬行过程,它运行在
亚马逊
上的一个ec2实例上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 有冗余,所以如果一个
爬虫
被挂断,其余的
爬虫
可以继续工
浏览 2
修改于2015-01-08
得票数 0
回答已采纳
1
回答
Python Scrapy代理在几轮之后就死了?
我想建立一个与scrapy
亚马逊
爬虫
。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个代理,大多数都没有死,几乎都在另一个
爬虫
上工作,但几轮后就不在<
浏览 18
提问于2019-11-07
得票数 1
1
回答
如何从网站的多个无关部分刮取数据(使用Scrapy)
我做了一个抓取网络
爬虫
,可以刮
亚马逊
。它可以通过使用关键字列表搜索项目,并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗?谢谢。
浏览 4
提问于2020-12-14
得票数 0
回答已采纳
1
回答
当我使用job glue时,
亚马逊
S3中的数据是否会出现在公共互联网上?
我正在使用
亚马逊
网络服务创建一条数据传输线,我的数据存储在
亚马逊
S3存储桶中,我计划使用胶水
爬虫
在前缀下抓取数据以提取元数据,并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。有没有可能通过公共互联网将数据从
亚马逊
S3移动到胶水? 是否有任何指向aws文档的链接,用于解释AWS服务在它们之间传输数据时使用哪些网络?
浏览 18
修改于2021-06-29
得票数 1
2
回答
如何在AWS Glue Crawler中监视和控制DPU使用
在中,据说
亚马逊
网络服务默认为每个ETL任务分配10个DPU,每个开发端点默认分配5个DPU,即使两者都可以配置最少2个DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU,但我还没有看到
爬虫
程序有任何这样的配置。 每个
爬虫
有固定数量的DPU吗?我们能控制这个数量吗?
浏览 0
提问于2018-03-08
得票数 9
2
回答
Elasticsearch HTTP API或python API
我是一个
实时
分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。真正的问题如下所示。哪种技术更适合我的场合?
浏览 4
提问于2015-12-01
得票数 1
3
回答
当连接数量有限时如何快速抓取网页
我编写了一个web
爬虫
,通过使用www.amazon.com urllib2从抓取产品信息,但
亚马逊
似乎将每个IP的连接限制为1。
浏览 5
修改于2013-04-28
得票数 1
1
回答
亚马逊
S3存储桶与谷歌云存储存储桶之间的
实时
同步
我有
亚马逊
网络服务的s3存储桶,在
亚马逊
网络服务的firehose中执行一些操作后,我每分钟都会收到多个拼图文件。现在我必须用GCP云存储桶
实时
同步这些文件,因为我们有多个云环境,进一步的过程将在GCP云中进行。但我有一个问题,我如何在两个云存储桶之间进行
实时
同步,以便任何文件一到达
亚马逊
网络服务s3,同时它也应该到达GCP bucket。请输入任何内容
浏览 1
提问于2020-04-12
得票数 2
2
回答
风暴
爬虫
-技术栈和Apache Nutch
我想抓取一个特定的论坛,接近
实时
,并将数据转储到HDFS,如果不是Hbase。 我听说Apache可以解决这个问题,但遗憾的是,它所需要的技术栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本,Elasticsearch降到1.7/1.4,所以我把注意力转移到了风暴
爬虫
上。由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3,有人能告诉我是否可以使用风暴
爬虫
0.9吗?
浏览 3
修改于2018-04-11
得票数 1
回答已采纳
1
回答
如何在谷歌搜索结果顶部的旋转木马上播放一段直播视频?
我想当一个直播流内容在我的网站上提供,就像一场体育比赛,然后我想谷歌显示一个
实时
流预览,其结果从视频标签。📷如何在google搜索中显示
实时
流徽章? 如何立即通知谷歌的
实时
蒸汽视频或改变?
浏览 0
修改于2018-05-03
得票数 1
回答已采纳
1
回答
在网站上显示当前的
亚马逊
价格
这只是一个一般性的问题,但我想知道是否有一个现有的API可以显示
亚马逊
上某一商品的当前价格?正如在,如果价格变化,网站将反映这一变化以及。如果不是,构建一个网络
爬虫
来浏览并找到我所选择的
亚马逊
项目是否是构建我自己版本的最好的方式?如果是这样的话,您建议使用什么语言来开始这类项目。
浏览 0
提问于2015-12-12
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券