腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
爬虫
体系
结构:避免将请求计算在Google中
我们运行一个服务,我们需要索引我们的客户的网站偶尔。我们的一位客户刚刚注意到,我们的机器人的流量正在他们的分析中看到(他们使用Google标记管理器)。当然,他们可以尝试过滤它,但是我想知道为什么会首先跟踪它,因为我们在bot中没有启用JS,而且他们已经标出了“从已知的机器人和蜘蛛中排除流量”。两个问题:
浏览 0
提问于2015-06-11
得票数 0
回答已采纳
1
回答
特定站点搜索引擎和网络
爬虫
的
体系
结构
谁能让我知道一个网站的具体搜索引擎的架构,因为在非常一般的答案,我不想要任何编码和其他东西,只是作为一个理论。
浏览 0
修改于2015-03-07
得票数 0
3
回答
使用RDF存储的Rails应用程序
体系
结构
我有几个解决方案,不知道该选择什么: 使用spira ORM并直接保存到RDF存储。这里我不需要写一个
爬虫
,但是我需要为auth插件做后端,并实现所有不支持spira的东西。选择什么样的应用程序
体系
结构?可能是其他的解决方案?
浏览 1
修改于2011-09-01
得票数 10
回答已采纳
5
回答
有谁知道一个好的可扩展的开源网络
爬虫
?
爬虫
需要具有可扩展的
体系
结构,以允许更改内部流程,如实现新步骤(预解析器、解析器等)。但是还有其他像这样的好项目吗?
浏览 2
提问于2009-06-24
得票数 14
回答已采纳
1
回答
用Java在分布式
体系
结构上实现Web
爬虫
朋友们,我用Java实现了一个多线程的网络
爬虫
。为了使它更高效,我想将其转换为分布式架构,即在3台机器上。据我所知,主从架构是最好的。谁能提供一些见解,说明哪种
体系
结构是最好的,以及我如何用Java实现它?
浏览 0
提问于2013-02-26
得票数 0
1
回答
用于建立网站结构和功能模型的图表
模型的目的是向技术人员(其他软件开发人员和工程师)传达网站的
体系
结构和功能。我倾向于使用的图表是组件图(用于通信
体系
结构)和序列图(用于传递HTTP请求的功能)。
浏览 0
提问于2013-04-07
得票数 4
1
回答
如何将与Luigi数据管道集成?
我目前正在构建一个Python后端,该后端将部署到一个AWS EC2实例中,该实例具有以下
体系
结构: 网络
爬虫
数据-保存到S3* =\任何建议,文件,或文章将是超级感谢!
浏览 1
提问于2017-06-13
得票数 3
回答已采纳
1
回答
使用
爬虫
查找多个网站的字
体系
列
我希望找到特定元素(如h1)在给定页面上使用的字
体系
列。我使用节点js 来查看50个或更多站点的列表。
浏览 10
修改于2017-05-23
得票数 2
回答已采纳
1
回答
(Scrapy)如何获得HTML元素的CSS规则?
我正在用Scrapy建造一个
爬虫
。我需要将字
体系
列分配给特定的HTML元素。
浏览 1
提问于2016-09-20
得票数 1
1
回答
Hibernate搜索,从远程服务更新索引。
该
体系
结构如下: 通过预定的任务,我们将从web
爬虫
数据库中的结果插入到网站数据库中。
浏览 2
修改于2017-07-14
得票数 0
回答已采纳
1
回答
如何将python应用程序的两个组件解耦?
我正在努力学习python开发,我一直在阅读关于
体系
结构模式和代码设计的主题,因为我想停止黑客攻击并真正开发。我正在实现一个see
爬虫
,我知道它有一个有问题的结构,正如您将要看到的那样,但是我不知道如何修复它。 Spidersconnections.py__init__.py crawlers.py实现了一个类型为Crawler的类,每个特定的
爬虫
都继承它它期望一个
爬虫
作为
浏览 1
修改于2020-08-18
得票数 0
回答已采纳
1
回答
如何传递数据体函数(对于Clojure API)
使用Clojure的数据体APi,我有一个
体系
结构,在这里我想传递一个要执行的事务函数。但是,试图调用在中传递的事务函数不起作用。
爬虫
认为它是一种象征。
浏览 3
提问于2013-09-02
得票数 0
回答已采纳
2
回答
AWS Glue Crawler更新现有目录表(痛苦地)很慢
object=<object>/year=<year>/month=<month>/day=<day>/object_001.json),并计划使用AWS递增批处理数据并将其加载到Parquet数据湖:
爬虫
将更新手动创建的这种设计模式和
体系
结构似乎是一种非常安全的方法,因为它得到了许多AWS博客、和的支持。然而,从那时起,重新运行
爬虫
所花费的时间与第一次爬行所花费的时间完全相同,如果不是更长的话;这使我相信
爬虫
不仅在爬行新的文件&
浏览 5
提问于2020-03-12
得票数 5
回答已采纳
1
回答
Rails、RabbitMQ和Sidekiq
体系
结构
爬虫
没有任何业务逻辑--至少目前是这样--但是,获取和持久化数据是一项需要时间的工作,我不希望它被阻塞。 我已经考虑过不同的
体系
结构,但是我不确定当事情发展的时候哪种
体系
结构会运行得最好。
浏览 0
提问于2018-03-02
得票数 3
回答已采纳
1
回答
Google的自定义搜索API是SOA的一个例子,不是Restful的
HATEOAS是超媒体作为应用程序状态引擎的缩写,它是REST应用程序
体系
结构的一个约束,它与大多数其他网络应用程序
体系
结构不同。相比之下,例如面向服务的
体系
结构(SOA),客户端和服务器通过通过文档共享的固定接口或接口描述语言(IDL)进行交互。这种服务的语义要比Fielding在他关于浏览器和
爬虫
的评论中提到的更深入。 您可以通过向其URI发送HTTP请求来检索特定搜索的结果。
浏览 4
修改于2011-07-13
得票数 2
2
回答
出于性能原因:为搜索引擎和用户创建不同的页面
因为这是一个AJAX应用程序,所以对于
爬虫
,我们按照推荐的做法(如?_escaped_fragment_=...)提供HTML内容。该应用程序是针对人类用户将生成的使用模式进行优化的,但是
爬虫
索引整个站点将导致峰值。 应用程序的
体系
结构允许我们在纵向和横向上进行扩展,但这意味着在硬件上花费更多的钱。
浏览 0
修改于2014-10-18
得票数 2
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
1
回答
Python
爬虫
中的分布式计算
我的目标是构建一个分布式
爬虫
,它一次处理超过一个网站,同时也处理多个查询。为此,我使用“请求”和“BeautifulSoup”等标准包在Python中构建了一个web
爬虫
。效果很好。然而,我在这个
体系
结构中有一个巨大的瓶颈,它不是主要的服务器.rabbitMQ不允许我一次使用超过一个消息(channel.basic_qos()函数不能工作!)
浏览 2
修改于2017-07-30
得票数 1
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
4
回答
如何停止云主机上的
爬虫
?
云服务器
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 494
提问于2018-01-27
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券