搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

5回答

多线程网络爬虫的最快架构

我不知道哪种架构会更快，更容易扩展。如何划分职责，以使同步尽可能少，并最大限度地减少检查当前URL是否已被访问的次数。

浏览 0修改于2011-12-19得票数 3

回答已采纳

1回答

ASP.NET站点递归HTTP-请求自己的URL

这可以使用某种类型的爬虫来完成，该爬虫定期运行于URL列表中。我的问题：让网站本身向自己的URL发布HttpWebRequests是个好主意吗？另一种架构是在外部应用程序(如Windows )中使用爬虫。不过，这将是一个复杂得多的架构。在这个问题中，我不想探索这个选项，因为我试图用一个更简单的架构来解决问题。

浏览 1提问于2013-01-27得票数 0

1回答

用Java在分布式体系结构上实现Web爬虫

朋友们，我用Java实现了一个多线程的网络爬虫。为了使它更高效，我想将其转换为分布式架构，即在3台机器上。据我所知，主从架构是最好的。

浏览 0提问于2013-02-26得票数 0

2回答

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift，为R.D.S添加了连接，并运行了一个爬虫程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表，如何传输此架构或Red-shift中的所有表我遵循了一个教程，但他在Red-shift中已经有了一个表，所以他使用第二个爬虫来获取模式，然后在源和目标上执行E.T.L作业。

浏览 0提问于2019-12-11得票数 1

2回答

在VPC中访问红移的AWS

爬虫成功地从Redshift获取架构信息到数据目录。但是，当我运行ETL作业时，它无法获取数据并说“资源不可用”。爬虫如何能够在没有NAT的情况下从Redshift读取模式信息？

浏览 4修改于2017-08-23得票数 1

1回答

如何使用动态数据启用页面索引？

此外，动态url页面包含指向永久url的链接(我希望Google或任何爬虫进行索引)。Google爬虫控件(网站管理员工具)不能从页面中读取urls，但不能对它们进行索引。解决办法？爬行策略系统架构。

浏览 3提问于2010-04-26得票数 3

1回答

AWS雅典娜: HIVE_CANNOT_OPEN_SPLIT:打开蜂巢分裂错误，查询Parquet文件时模式不匹配

9154afb3f07d.c000.snappy.parquet (offset=0，length=12795)：模式不匹配，行列统计的亚稳态模式有17个字段，而拼图模式有9个字段() 我已经使用AWS Glue爬虫获得Parquet文件的架构。最初，我在分区Day=1和Day=2中有几个文件，运行爬虫并能够使用雅典娜查询它。我尝试过更新爬虫中数据目录选项中的表定义，但结果是相同的。

浏览 0修改于2022-09-27得票数 1

1回答

基于Hadoop MapReduce的Web Java爬虫

我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫，并在HBase中插入内容。我试着把这两个教程结合起来：但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里？

浏览 22提问于2017-12-19得票数 1

回答已采纳

1回答

您能使用AWS摄取加密的S3对象(文本文件)吗？

我创建了一个爬虫来映射加密文本文件的架构，但是爬虫没有创建任何表。为了确定，我爬行相同的文件，但在一个解密的版本，它工作。 AWS不能直接从S3中摄取加密文件吗？

浏览 0提问于2019-04-30得票数 1

回答已采纳

2回答

如何从dll调用向可视化界面提供反馈？

架构概述：我目前正在编写一个接口(UI)，用于“调试”我编写的爬虫(或一组爬虫器)。每个爬虫都是一个.dll。

浏览 2提问于2012-06-11得票数 0

回答已采纳

3回答

使用RDF存储的Rails应用程序体系结构

我有几个解决方案，不知道该选择什么：使用spira ORM并直接保存到RDF存储。这里我不需要写一个爬虫，但是我需要为auth插件做后端，并实现所有不支持spira的东西。使用经典架构+额外的spira模型，这样我就可以为每个实体创建两个模型类，例如: AR中的用户+ Spira中的UserSpira，其中也保存了用户Spira对象的保

浏览 1修改于2011-09-01得票数 10

回答已采纳

1回答

我创建了一个glue爬虫，它爬行数据并在glue数据目录中创建表。假设我有一个CSV文件(file1.csv)，它的模式类似于(id，name)，一旦爬虫作业执行完毕，它就会创建包含2列(id，name)的雅典娜表(crawler_file)。目前，当glue爬虫正在执行时，它正在创建一个新的带有模式(id，name，roll_no)的雅典娜表(crawler_file_111)。我是否可以这样配置crawler，使crawler不创建新表，而是更新表的现有架构？

浏览 13修改于2019-10-11得票数 2

回答已采纳

1回答

aws crawler不创建awsdatacatalog

在使用aws爬虫之后，当我查询雅典娜时，我得到了以下错误...SYNTAX_ERROR:第1:15行:表awsdatacatalog.datahub2.datahub2不存在标签上次更新Mon 5月20日15:07:07 GMT+100 2019创建日期Mon 5月20日15:07:07在2周前，这个爬虫创建了一个可以在雅典娜中无错

浏览 1提问于2019-05-20得票数 0

1回答