搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

爬虫体系结构:避免将请求计算在Google中

我们运行一个服务，我们需要索引我们的客户的网站偶尔。我们的一位客户刚刚注意到，我们的机器人的流量正在他们的分析中看到(他们使用Google标记管理器)。当然，他们可以尝试过滤它，但是我想知道为什么会首先跟踪它，因为我们在bot中没有启用JS，而且他们已经标出了“从已知的机器人和蜘蛛中排除流量”。两个问题：

浏览 0提问于2015-06-11得票数 0

回答已采纳

1回答

特定站点搜索引擎和网络爬虫的体系结构

谁能让我知道一个网站的具体搜索引擎的架构，因为在非常一般的答案，我不想要任何编码和其他东西，只是作为一个理论。

浏览 0修改于2015-03-07得票数 0

3回答

使用RDF存储的Rails应用程序体系结构

我有几个解决方案，不知道该选择什么：使用spira ORM并直接保存到RDF存储。这里我不需要写一个爬虫，但是我需要为auth插件做后端，并实现所有不支持spira的东西。选择什么样的应用程序体系结构？可能是其他的解决方案？

浏览 1修改于2011-09-01得票数 10

回答已采纳

5回答

有谁知道一个好的可扩展的开源网络爬虫？

爬虫需要具有可扩展的体系结构，以允许更改内部流程，如实现新步骤(预解析器、解析器等)。但是还有其他像这样的好项目吗？

浏览 2提问于2009-06-24得票数 14

回答已采纳

1回答

用Java在分布式体系结构上实现Web爬虫

朋友们，我用Java实现了一个多线程的网络爬虫。为了使它更高效，我想将其转换为分布式架构，即在3台机器上。据我所知，主从架构是最好的。谁能提供一些见解，说明哪种体系结构是最好的，以及我如何用Java实现它？

浏览 0提问于2013-02-26得票数 0

1回答

用于建立网站结构和功能模型的图表

模型的目的是向技术人员(其他软件开发人员和工程师)传达网站的体系结构和功能。我倾向于使用的图表是组件图(用于通信体系结构)和序列图(用于传递HTTP请求的功能)。

浏览 0提问于2013-04-07得票数 4

1回答

如何将与Luigi数据管道集成？

我目前正在构建一个Python后端，该后端将部署到一个AWS EC2实例中，该实例具有以下体系结构：网络爬虫数据-保存到S3* =\任何建议，文件，或文章将是超级感谢！

浏览 1提问于2017-06-13得票数 3

回答已采纳

1回答

使用爬虫查找多个网站的字体系列

我希望找到特定元素(如h1)在给定页面上使用的字体系列。我使用节点js 来查看50个或更多站点的列表。

浏览 10修改于2017-05-23得票数 2

回答已采纳

1回答

(Scrapy)如何获得HTML元素的CSS规则？

我正在用Scrapy建造一个爬虫。我需要将字体系列分配给特定的HTML元素。

浏览 1提问于2016-09-20得票数 1

1回答

Hibernate搜索，从远程服务更新索引。

该体系结构如下：通过预定的任务，我们将从web爬虫数据库中的结果插入到网站数据库中。

浏览 2修改于2017-07-14得票数 0

回答已采纳

1回答

如何将python应用程序的两个组件解耦？

我正在努力学习python开发，我一直在阅读关于体系结构模式和代码设计的主题，因为我想停止黑客攻击并真正开发。我正在实现一个see爬虫，我知道它有一个有问题的结构，正如您将要看到的那样，但是我不知道如何修复它。 Spidersconnections.py__init__.py crawlers.py实现了一个类型为Crawler的类，每个特定的爬虫都继承它它期望一个爬虫作为

浏览 1修改于2020-08-18得票数 0

回答已采纳

1回答

如何传递数据体函数(对于Clojure API)

使用Clojure的数据体APi，我有一个体系结构，在这里我想传递一个要执行的事务函数。但是，试图调用在中传递的事务函数不起作用。爬虫认为它是一种象征。

浏览 3提问于2013-09-02得票数 0

回答已采纳

2回答

AWS Glue Crawler更新现有目录表(痛苦地)很慢

object=<object>/year=<year>/month=<month>/day=<day>/object_001.json)，并计划使用AWS递增批处理数据并将其加载到Parquet数据湖：爬虫将更新手动创建的这种设计模式和体系结构似乎是一种非常安全的方法，因为它得到了许多AWS博客、和的支持。然而，从那时起，重新运行爬虫所花费的时间与第一次爬行所花费的时间完全相同，如果不是更长的话；这使我相信爬虫不仅在爬行新的文件&

浏览 5提问于2020-03-12得票数 5

回答已采纳

1回答

Rails、RabbitMQ和Sidekiq体系结构

爬虫没有任何业务逻辑--至少目前是这样--但是，获取和持久化数据是一项需要时间的工作，我不希望它被阻塞。我已经考虑过不同的体系结构，但是我不确定当事情发展的时候哪种体系结构会运行得最好。

浏览 0提问于2018-03-02得票数 3

回答已采纳

1回答

Google的自定义搜索API是SOA的一个例子，不是Restful的

HATEOAS是超媒体作为应用程序状态引擎的缩写，它是REST应用程序体系结构的一个约束，它与大多数其他网络应用程序体系结构不同。相比之下，例如面向服务的体系结构(SOA)，客户端和服务器通过通过文档共享的固定接口或接口描述语言(IDL)进行交互。这种服务的语义要比Fielding在他关于浏览器和爬虫的评论中提到的更深入。您可以通过向其URI发送HTTP请求来检索特定搜索的结果。

浏览 4修改于2011-07-13得票数 2

2回答

出于性能原因:为搜索引擎和用户创建不同的页面

因为这是一个AJAX应用程序，所以对于爬虫，我们按照推荐的做法(如?_escaped_fragment_=...)提供HTML内容。该应用程序是针对人类用户将生成的使用模式进行优化的，但是爬虫索引整个站点将导致峰值。应用程序的体系结构允许我们在纵向和横向上进行扩展，但这意味着在硬件上花费更多的钱。

浏览 0修改于2014-10-18得票数 2

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

Python爬虫中的分布式计算

我的目标是构建一个分布式爬虫，它一次处理超过一个网站，同时也处理多个查询。为此，我使用“请求”和“BeautifulSoup”等标准包在Python中构建了一个web爬虫。效果很好。然而，我在这个体系结构中有一个巨大的瓶颈，它不是主要的服务器.rabbitMQ不允许我一次使用超过一个消息(channel.basic_qos()函数不能工作！)

浏览 2修改于2017-07-30得票数 1

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 494提问于2018-01-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

爬虫体系结构:避免将请求计算在Google中

特定站点搜索引擎和网络爬虫的体系结构

使用RDF存储的Rails应用程序体系结构

有谁知道一个好的可扩展的开源网络爬虫？

用Java在分布式体系结构上实现Web爬虫

用于建立网站结构和功能模型的图表

如何将与Luigi数据管道集成？

使用爬虫查找多个网站的字体系列

(Scrapy)如何获得HTML元素的CSS规则？

Hibernate搜索，从远程服务更新索引。

如何将python应用程序的两个组件解耦？

如何传递数据体函数(对于Clojure API)

AWS Glue Crawler更新现有目录表(痛苦地)很慢

Rails、RabbitMQ和Sidekiq体系结构

Google的自定义搜索API是SOA的一个例子，不是Restful的

出于性能原因:为搜索引擎和用户创建不同的页面

爬虫和爬虫架构

Python爬虫中的分布式计算

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐