搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

风暴爬虫-技术栈和Apache Nutch

我听说Apache可以解决这个问题，但遗憾的是，它所需要的技术栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本，Elasticsearch降到1.7/1.4，所以我把注意力转移到了风暴爬虫上。由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3，有人能告诉我是否可以使用风暴爬虫0.9吗？

浏览 3修改于2018-04-11得票数 1

回答已采纳

1回答

不认识的反爬虫技术，提示412错误，有高手知道？

爬虫

近期发现大量网站采用相似的反爬技术，Heritrix提示412，网址http://www.xgrsks.cn/，还有湖北省编制网、检察院、政府网都采用这种，网上查不到相关办法

浏览 1014提问于2021-04-26

1回答

Builtwith.com和类似的服务(收费)提供了使用SalesForce或NationBuilder等特定技术构建的域列表。有一些技术，我感兴趣的，与建设不扫描，可能是因为他们太小的市场存在。如果我们知道某个网页的某些签名显示了一种技术是用于一个网站，什么是最好的方式来识别尽可能多的这些网站？我们预计有1000个网站，我们感兴趣的是那些排名前一千万的网站。(我们不认为最大的网站使用这种技术。) 我有一个开源网络爬虫列表-- --但是我的用例似乎与爬虫的许多常规标准不同，因为我们只想

浏览 2修改于2017-03-28得票数 3

回答已采纳

2回答

Elasticsearch HTTP API或python API

我是一个实时分布式搜索引擎elasticsearch的新手，但我想问一个技术问题。真正的问题如下所示。哪种技术更适合我的场合？

浏览 4提问于2015-12-01得票数 1

3回答

Kentico 10使用的Web Crawler引擎

根据文档，是否有更多关于Kentico 10使用的网络爬虫技术/引擎的信息？我之所以问这个问题，是因为我想把它用于一个定制的爬虫项目，这个项目可以位于Kentico之外，并且仍然允许它与Kentico平台具有内在的兼容性。

浏览 0修改于2017-08-31得票数 7

回答已采纳

3回答

聚合器是如何构建的？

比方说，我想要从许多来源(可以是旅行、技术或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢？或者Kayak.com如何聚合他们的数据？(这是一项旅游聚合服务。)

浏览 2修改于2010-08-23得票数 14

2回答

SEO + ViewState =只适用于爬虫？是隐形吗？

这里有足够多的问号，所以我想避免这种技术。我对这两种情况都不满意，也找不到更多关于这个话题的东西。我潜在的解决方案是，只有当ViewState是一个爬虫时，才将UserAgent移动到页面底部，从而将这些技术结合起来。爬虫不使用ViewState，所以将ViewState

浏览 0修改于2013-05-26得票数 2

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内容)，就不是一个好主意。谢谢!

浏览 2修改于2017-05-23得票数 3

3回答

寻找关于搜索引擎背后的理论的好书

我正在做一个项目，要求我理解搜索引擎在网络上使用的不同技术。我是全新的学科，我正在寻找有用的资源和书籍的主题。如有任何建议，敬请见谅。

浏览 0修改于2011-09-03得票数 8

回答已采纳

2回答

我们还应该关心ajax爬行规范吗？

似乎是谷歌爬虫运行js。但是ajax爬行文档技术仍然可以在谷歌开发者的网站上使用。它们是否仍然有效，是否有必要加以遵循？

浏览 0提问于2015-11-28得票数 5

1回答

抓取器正在获取相关链接。

我已经创建了一个使用scrapy.The爬虫爬虫的网站和抓取链接。**所使用的技术：**Python，Scrapy Error抓取相对urls，因为刮刀器无法抓取网页。我要爬虫只取无源网址。

浏览 2提问于2021-06-29得票数 1

1回答

获得由Shodan爬行的Screen发URL

当shodan爬行一个IP时，需要一个基于某种技术的屏幕截图(？)尽管如此，肖丹拍摄的大部分截图都是来自IP摄像头。有什么方法可以访问爬虫在上面找到图像的URL吗？爬虫找到了"rtsp://blargh.com/1/stream"，拍了一张那条小溪的截图。我能以某种方式访问这个确切的URL吗？

浏览 0修改于2021-03-16得票数 0

回答已采纳

2回答

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。我的百万美元的问题，有没有一个单一的技术或单一的网络爬虫，我可以用来抓取这些网站？我已经知道我想要的信息，这些网站很少在其网站结构方面进行更新，而且大多数网站都有需要下载的文档。或者，有没有更好的解决方案，可以减少我需要构建的网络爬虫的数量？此外，这些网络爬虫将仅用于下载我针对的网站的新信息。

浏览 3修改于2021-02-13得票数 0

1回答

抓取爬虫:无法将多个urls存储到postgres中

我使用刮伤python.I创建了一个爬虫，我想将由爬虫获取的多个urls存储到postgres table.When中，启动爬虫，抓取urls并将表创建到postgres中，但是数据没有被存储。使用的技术： Scrapy错误：我无法存储所有的urls.The爬虫并不适用于所有的网站。

浏览 0提问于2021-12-15得票数 0

1回答

如何抓取外部web搜索

例如，以下内容：它显示以下结果：单击每个名称旁边的任意一组数字将显示信息，例如：为了这个目的，我查看了抓取器、arachnode和其他网络爬虫，但我不太相信这是适合它的技术爬虫能像用户一样爬行搜索吗？

浏览 2修改于2014-05-30得票数 0

回答已采纳

1回答

无法在BlueMix容器中添加多个自定义日志

容器爬虫技术有什么已知的问题吗？我可以做些什么来检查这些环境变量是否被正确地传递到爬虫程序中？

浏览 0提问于2015-11-15得票数 0

1回答

为什么Kinesis或Crawler要在我的数据中创建分区？

上下文:根据胶水模式，我使用动态技术将来自lambda的数据流到一个S3桶中。然后，我在我的S3桶上运行一个爬虫来编目我的数据。但是，当数据存储在我的S3桶中时，数据存储在以下dir结构中：然后，当我在上面运行我的爬虫时，我的爬虫会创建4个额外的分区键问:为什么胶水爬虫要创建这些附加属性，我如何阻止它创建它们？或者，如何防止动态在S3中创建上面的dir结构，而只是转储带有时间戳的文件？

浏览 10提问于2022-07-26得票数 0

回答已采纳

5回答

防止机器人处理网站上的图像

我有一个用PHP技术创建的网站，我想阻止机器人从website.What中获取图像，这是防止机器人从网站上处理图像的最佳方法吗？请确保它不会伤害SEO。请确保这不影响间谍和爬虫索引网站.

浏览 8修改于2010-12-14得票数 0

回答已采纳

1回答

如何在python中创建基本语义搜索

我想用Python写一个基本的语义网络爬虫，我知道语义应用程序使用RDF文件，但还有什么？我安装了一些Python RDF模块，并且开始学习它们是如何工作的。你能向我介绍一下语义应用程序中使用的技术和技巧吗？

浏览 0修改于2013-08-14得票数 5

回答已采纳

1回答

机器人/蜘蛛是否克隆公共git存储库？

虽然我想相信很多人正在找到我的代码并下载它，但其中一些代码的性质让我怀疑这些克隆是来自于机器人或搜索引擎爬虫/蜘蛛。有没有人知道克隆git存储库是搜索引擎爬虫的标准技术，还是我的代码比我想象的更受欢迎？

浏览 3提问于2016-11-12得票数 12

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

风暴爬虫-技术栈和Apache Nutch

不认识的反爬虫技术，提示412错误，有高手知道？

最好的爬虫确定与技术建设？

Elasticsearch HTTP API或python API

Kentico 10使用的Web Crawler引擎

聚合器是如何构建的？

SEO + ViewState =只适用于爬虫？是隐形吗？

在性能方面，为什么facebook不一次加载所有的JS文件？

寻找关于搜索引擎背后的理论的好书

我们还应该关心ajax爬行规范吗？

抓取器正在获取相关链接。

获得由Shodan爬行的Screen发URL

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

抓取爬虫:无法将多个urls存储到postgres中

如何抓取外部web搜索

无法在BlueMix容器中添加多个自定义日志

为什么Kinesis或Crawler要在我的数据中创建分区？

防止机器人处理网站上的图像

如何在python中创建基本语义搜索

机器人/蜘蛛是否克隆公共git存储库？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐