腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
5
回答
多线程网络
爬虫
的最快
架构
我不知道哪种
架构
会更快,更容易扩展。如何划分职责,以使同步尽可能少,并最大限度地减少检查当前URL是否已被访问的次数。
浏览 0
修改于2011-12-19
得票数 3
回答已采纳
1
回答
ASP.NET站点递归HTTP-请求自己的URL
这可以使用某种类型的
爬虫
来完成,该
爬虫
定期运行于URL列表中。 我的问题:让网站本身向自己的URL发布HttpWebRequests是个好主意吗?另一种
架构
是在外部应用程序(如Windows )中使用
爬虫
。不过,这将是一个复杂得多的
架构
。在这个问题中,我不想探索这个选项,因为我试图用一个更简单的
架构
来解决问题。
浏览 1
提问于2013-01-27
得票数 0
1
回答
用Java在分布式体系结构上实现Web
爬虫
朋友们,我用Java实现了一个多线程的网络
爬虫
。为了使它更高效,我想将其转换为分布式
架构
,即在3台机器上。据我所知,主从
架构
是最好的。
浏览 0
提问于2013-02-26
得票数 0
2
回答
有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)
我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift,为R.D.S添加了连接,并运行了一个
爬虫
程序将我的R.D.S
架构
创建到Amazon GLUE中。现在我有很多表,如何传输此
架构
或Red-shift中的所有表 我遵循了一个教程,但他在Red-shift中已经有了一个表,所以他使用第二个
爬虫
来获取模式,然后在源和目标上执行E.T.L作业。
浏览 0
提问于2019-12-11
得票数 1
2
回答
在VPC中访问红移的AWS
爬虫
成功地从Redshift获取
架构
信息到数据目录。但是,当我运行ETL作业时,它无法获取数据并说“资源不可用”。
爬虫
如何能够在没有NAT的情况下从Redshift读取模式信息?
浏览 4
修改于2017-08-23
得票数 1
1
回答
如何使用动态数据启用页面索引?
此外,动态url页面包含指向永久url的链接(我希望Google或任何
爬虫
进行索引)。Google
爬虫
控件(网站管理员工具)不能从页面中读取urls,但不能对它们进行索引。解决办法?爬行策略系统
架构
。
浏览 3
提问于2010-04-26
得票数 3
1
回答
AWS雅典娜: HIVE_CANNOT_OPEN_SPLIT:打开蜂巢分裂错误,查询Parquet文件时模式不匹配
9154afb3f07d.c000.snappy.parquet (offset=0,length=12795):模式不匹配,行列统计的亚稳态模式有17个字段,而拼图模式有9个字段() 我已经使用AWS Glue
爬虫
获得Parquet文件的
架构
。最初,我在分区Day=1和Day=2中有几个文件,运行
爬虫
并能够使用雅典娜查询它。我尝试过更新
爬虫
中数据目录选项中的表定义,但结果是相同的。
浏览 0
修改于2022-09-27
得票数 1
1
回答
基于Hadoop MapReduce的Web Java
爬虫
我想使用MapReduce
架构
实现一个基于Hadoop框架的java
爬虫
,并在HBase中插入内容。我试着把这两个教程结合起来: 但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里?
浏览 22
提问于2017-12-19
得票数 1
回答已采纳
1
回答
您能使用AWS摄取加密的S3对象(文本文件)吗?
我创建了一个
爬虫
来映射加密文本文件的
架构
,但是
爬虫
没有创建任何表。为了确定,我爬行相同的文件,但在一个解密的版本,它工作。 AWS不能直接从S3中摄取加密文件吗?
浏览 0
提问于2019-04-30
得票数 1
回答已采纳
2
回答
如何从dll调用向可视化界面提供反馈?
架构
概述:我目前正在编写一个接口(UI),用于“调试”我编写的
爬虫
(或一组
爬虫
器)。每个
爬虫
都是一个.dll。
浏览 2
提问于2012-06-11
得票数 0
回答已采纳
3
回答
使用RDF存储的Rails应用程序体系结构
我有几个解决方案,不知道该选择什么: 使用spira ORM并直接保存到RDF存储。这里我不需要写一个
爬虫
,但是我需要为auth插件做后端,并实现所有不支持spira的东西。使用经典
架构
+额外的spira模型,这样我就可以为每个实体创建两个模型类,例如: AR中的用户+ Spira中的UserSpira,其中也保存了用户Spira对象的保
浏览 1
修改于2011-09-01
得票数 10
回答已采纳
1
回答
防止AWS glue crawler创建多个表
我创建了一个glue
爬虫
,它爬行数据并在glue数据目录中创建表。假设我有一个CSV文件(file1.csv),它的模式类似于(id,name),一旦
爬虫
作业执行完毕,它就会创建包含2列(id,name)的雅典娜表(crawler_file)。目前,当glue
爬虫
正在执行时,它正在创建一个新的带有模式(id,name,roll_no)的雅典娜表(crawler_file_111)。我是否可以这样配置crawler,使crawler不创建新表,而是更新表的现有
架构
?
浏览 13
修改于2019-10-11
得票数 2
回答已采纳
1
回答
aws crawler不创建awsdatacatalog
在使用aws
爬虫
之后,当我查询雅典娜时,我得到了以下错误...SYNTAX_ERROR:第1:15行:表awsdatacatalog.datahub2.datahub2不存在标签上次更新Mon 5月20日15:07:07 GMT+100 2019创建日期Mon 5月20日15:07:07在2周前,这个
爬虫
创建了一个可以在雅典娜中无错
浏览 1
提问于2019-05-20
得票数 0
1
回答
消防软管记录格式转换不能读取从现有模式创建的胶表模式。
以下是参数:从 post来看,如果所述表是从现有模式创建的,则火软管似乎无法读取表
架构
。有人能证实这一点吗?就像在那篇文章中一样,我也收到了错误消息:我也可以在胶水工作中自己做地板转换,但如果可能的话,我宁愿做火龙带。
浏览 5
提问于2021-11-02
得票数 0
1
回答
架构
未与AWS Glue
爬虫
正确合并
不幸的是,当我连续两天运行
爬虫
和模式更改时,我会得到一个关于不兼容模式的错误: S3Targets:我的猜测是,我的
爬虫
的模式合并行为在以Configuration
浏览 8
提问于2019-12-23
得票数 0
2
回答
如何更改Glue Crawler创建的自动检测分区的列名?
然后,我创建了一个
爬虫
,它将搜索到这个桶中的数据,并将其配置如下:运行
爬虫
后,它将创建一个具有以下模式的表:我知道这适用于Hive分区模式year=2018/month=04...
浏览 0
修改于2018-05-15
得票数 7
回答已采纳
2
回答
播放框架配置包括dist中断
我们有一个使用play框
架构
建的复杂应用程序。应用程序被分成不同的部分。该网站、
爬虫
和所有其他
爬虫
都使用类似的类和配置文件。为了解决这个问题,我们将它们集中到play应用程序根目录下的一个文件夹中。
浏览 3
提问于2013-06-02
得票数 3
1
回答
用于建立网站结构和功能模型的图表
我试图了解什么UML模型/图表可以用来沟通一个网站的
架构
。网站特色: 我倾向于使用的图表是组件图(用于通信体系结构)和序列图(用于传递HTTP请求的功能)。你过去用过哪些图表来向技术人员传达网站的
架构
和功能?
浏览 0
提问于2013-04-07
得票数 4
1
回答
缓存和使AWS Lambda响应无效
我试图在AWS上实现一个解决方案,如下所示:可能的解决方案 API网关DynamoDB:爬行后将数据存储在DynamoDB中,然后由缓存的After提供服务。这里唯一的问题是,
浏览 1
提问于2017-07-23
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券