搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

除了后端和API之外，还能用于其他进程吗？

谷歌应用引擎可以用来运行网络爬虫吗？由于google应用引擎用于后端和app，我担心在应用程序引擎上部署这样的爬虫系统会有其局限性。

浏览 0修改于2018-06-05得票数 0

回答已采纳

1回答

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

我的爬虫正在抓取所有网站并从中获取元数据信息。然后，我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我不希望爬虫击中亚马逊RDS，这会减慢它的速度。我应该使用亚马逊SimpleDB吗？然后，我可以读取SimpleDB，对网址进行杀毒，然后将其移动到Amazon RDS。

浏览 1修改于2012-03-22得票数 3

回答已采纳

1回答

我可能会被这个问题打倒..但还是会试一试..由于Google Site Search正在停业，我们对其免费版本不感兴趣--我们决定使用Amazon Cloud Search选项。我们必须构建一个爬虫，并且有一些功能需要自定义构建。我正在尝试查看网站使用ACS并正常工作的示例，但我找不到任何好的东西。是否有人尝试过使用Amazon Cloud search进行网站搜索。我们是基于.net的解决方案-所以我想写一个爬虫..每晚提取内容并将其发送到Amazon。这是正确的方式吗？

浏览 2提问于2017-05-19得票数 1

1回答

Nutch crawler不适用于大型urls

我正在尝试在Amazon EMR集群上设置一个nutch爬虫，该集群有两个可伸缩的主节点。我的种子url列表只有10000个url，但我的爬虫在Map-reduce作业中的抓取阶段停留在90%左右。

浏览 7提问于2017-08-18得票数 0

2回答

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift，为R.D.S添加了连接，并运行了一个爬虫程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表，如何传输此架构或Red-shift中的所有表我遵循了一个教程，但他在Red-shift中已经有了一个表，所以他使用第二个爬虫来获取模式，然后在源和目标上执行E.T.L作业。

浏览 0提问于2019-12-11得票数 1

1回答

为什么我的爬虫既不获取任何数据，也不抛出任何错误

我制作了一个爬虫来解析来自Amazon的产品的名称，但是当我运行我的爬虫时，它既不会带来任何结果，也不会显示任何错误。到目前为止我知道Xpath还行。找不到我已经犯过的任何错误。希望有人来调查。import requests url = "https://www.amazon.com/Best-Sellers

浏览 0提问于2017-05-01得票数 0

回答已采纳

2回答

对象的快速动态创建+ json导出

我创建了一个新的爬虫来抓取一个网站。这个爬虫在网站上获取liste的每个视频游戏，并为它创建一个对象： title = Field() kind{name : "cdiscount", "address" : "example", "price" : "45 €"}, {name : "amazon&quo

浏览 0修改于2013-04-22得票数 2

回答已采纳

1回答

在AWS胶中提供用户定义的列名

我需要通过Amazon读取它们，然后为正在读取的表提供列名。问题是，拼花已经有了列名，正在被爬虫读取，并显示在表中。是否可以在胶水中为这些拼花文件提供我的列名？

浏览 1提问于2018-09-20得票数 1

1回答

java--跟踪运行java应用程序时所使用的带宽和其他参数的库/方法

我正在努力创建一个Java的网络爬虫。爬虫访问网站，使用JDBC访问/存储数据库中的数据，还将文件存储在本地或云存储上。作为爬行的一部分，我想记录爬虫使用的确切细节--Number of sites visited (HTTP+HTTPS)Number of bytes of data stored+accessed in cloud storage (like <e

浏览 1提问于2012-06-28得票数 0

回答已采纳

1回答

为什么我的HTML5不显示在我的页面中？

--这可能是问题所在(来自amazon，通过Bing搜索)：相关广告应该在你添加代码后不久出现在你的页面上，但有时广告显示时间可能长达48小时。这是因为我们的爬虫必须访问您的网页，并确定其内容，以便我

浏览 2修改于2013-05-11得票数 0

回答已采纳

1回答

无法使用bash - cron将目录更改为脚本。

我有一个运行多个Python爬虫实例的脚本，Crawler是int /root/crawler/batchscript.py爬虫工作得很好。只发布相关代码)from scrapy.utils.project import get_project_settings from amazon_crawler.spiders.amaz

浏览 3提问于2016-11-17得票数 0

回答已采纳

3回答

当连接数量有限时如何快速抓取网页

我编写了一个web爬虫，通过使用www.amazon.com urllib2从抓取产品信息，但亚马逊似乎将每个IP的连接限制为1。

浏览 5修改于2013-04-28得票数 1

1回答

Glue Crawler:目标接收到的唯一事件数为0

我已经创建了一个爬虫，当在S3上添加新对象时，它会从SQS中提取消息，但是当它运行消息“接收到的目标的唯一事件数为0”时，就会打印出预期的表。当我从爬虫设置中删除S3事件时，将成功地创建表。BENCHMARK : Running Start Crawl for Crawler [crawler_name] INFO : The crawl is running by consuming Amazon

浏览 4提问于2022-01-21得票数 0

2回答

将AWS服务器转换为代理服务器，用于爬行Scrapy

我只是想知道是否有人知道我如何将Amazon服务服务器配置为由Scrapy爬虫作为代理服务器使用？我不想被我爬行的网站列入黑名单，所以我需要使用代理服务器。

浏览 0提问于2015-11-10得票数 0

回答已采纳

1回答

刮伤的DEPTH_PRIORITY不起作用

我想我的蜘蛛爬虫的start_urls网站完全之前跟踪更深入的网站。爬虫的目标是找到过期的域。举个例子，我创建了一个包含500个url (450个过期和50个actif网站)的页面，爬虫必须在后面的每个url中插入一个url。实际上，爬虫跟随第一个网站活着，停止爬行start_urls网站。LxmlLinkExtractor(allow=('.com', '.fr', '.net', '.org', '.info', &#

浏览 3提问于2016-03-17得票数 1

1回答

如何在您自己的ami中管理应用程序？

我们有一些从互联网上收集数据的爬虫。对于我们的应用程序来说，EC2 spot是一个非常便宜的解决方案。在我们的例子中，我们可以通过以下步骤来设置爬虫： 3.3安装最新

浏览 2修改于2012-07-09得票数 0

回答已采纳

1回答

glue爬虫ETL后的雅典娜流水线查询

这里的问题是，最后一个爬虫应该创建新的表，而不仅仅是同一个表的分区，因此在运行作业列表之前不知道表名。我发现您可以监听新表的创建和爬虫程序的完成，但是爬虫程序运行结束时的日志不包含(使用Amazon's Documentation)创建的新表的名称。

浏览 19修改于2019-02-12得票数 1

1回答

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

我试图让爬虫可以访问我的预渲染页面，但是我不能重定向爬虫请求，因为Amazon没有提供S3重写选项，而且重定向规则是有限的。使用此设置，当爬虫找到我的http://mywebsite.com/about链接时，它将向http://mywebsite.com/about?这是一个，其他爬虫紧随其后。我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现，但是我不能为爬虫提供正

浏览 3提问于2015-09-07得票数 6

回答已采纳

2回答

用于以正确格式导出csv文件的Scrapy管道

爬虫代码如下：from amazon.items import AmazonItem name= "amazon" start_urls = [ 'http://www.amazon.co.uk/product-reviews

浏览 3修改于2016-03-20得票数 18

回答已采纳

1回答

Scrapy 4xx/5xx错误处理

我们正在构建一个分布式系统，它使用Amazon的SQS将消息分派给根据消息内容运行爬虫的工作者。我们(显然)只希望在相应的爬行器成功运行的情况下从队列中删除消息，即不会遇到4xx/5xx响应。我想要做的是挂钩到scrapy的signals API来触发一个回调，当爬虫成功关闭时，该回调将从队列中删除消息，但我不确定这是否真的是signals.spider_closed的语义(而不是“这个蜘蛛由于任何原因而关闭

浏览 1修改于2015-08-28得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

除了后端和API之外，还能用于其他进程吗？

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

Amazon云搜索体验

Nutch crawler不适用于大型urls

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

为什么我的爬虫既不获取任何数据，也不抛出任何错误

对象的快速动态创建+ json导出

在AWS胶中提供用户定义的列名

java--跟踪运行java应用程序时所使用的带宽和其他参数的库/方法

为什么我的HTML5不显示在我的页面中？

无法使用bash - cron将目录更改为脚本。

当连接数量有限时如何快速抓取网页

Glue Crawler:目标接收到的唯一事件数为0

将AWS服务器转换为代理服务器，用于爬行Scrapy

刮伤的DEPTH_PRIORITY不起作用

如何在您自己的ami中管理应用程序？

glue爬虫ETL后的雅典娜流水线查询

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

用于以正确格式导出csv文件的Scrapy管道

Scrapy 4xx/5xx错误处理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐