搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

4回答

solr + Heritrix

如何将solr与heritrix集成？谢谢

浏览 4修改于2012-07-03得票数 2

回答已采纳

1回答

使用Heritrix 1.14

浏览了帖子和您建议的解决方案-- 停留在导出HERITRIX_HOME=/PATH/TO/BUILT/HERITRIX。该命令以静默方式运行，但cd $heritrix_home结果为 -bash: cd: /root/heritrix-1.14.4/bin/heritrix:不是目录。chmod

浏览 2修改于2017-05-23得票数 0

2回答

边界Heritrix深度

我是Heritrix的新手，正在使用heritirx 1.14。我不知道如何做以下事情: 1)绑定下载链接的BFS深度到一个特定的数字，例如3.2)限制下载的类型为html和text。

浏览 1提问于2010-06-20得票数 1

1回答

Heritrix内容过滤

我目前正在试用Heritrix (3.2.0)，看看它是否能满足我的需求。这是我想要做的一个例子。我将Heritrix指向URL，如下所示...example.com/news/speeches。我想阻止Heritrix导航超过1级，如果不在example.com域的这个特定路径下，则阻止它拉出内容

浏览 13提问于2015-08-15得票数 1

2回答

如何远程使用Heritrix的webUI

你好，我一直在与Heritrix玩，并希望将它包含在一个网站上/允许远程访问它。我查看了手册，发现了-b命令将其绑定到远程主机，但是文档可能更好。

浏览 5修改于2013-12-21得票数 0

回答已采纳

1回答

Heritrix DecidingScope regexp URI

我正在使用HERITRIX爬行一个名为octetfarm.com的站点。我希望爬虫在URI (或URL)上执行regexp，如果字符串"octetfarm“存在，爬虫应该接受它。

浏览 4修改于2020-06-20得票数 0

1回答

在Heritrix 3.1.0中更改MirrorWriterProcessor的路径

我正在使用Heritrix 3.1.0进行爬行。我正在尝试使用MirrorWriterProcessor保存文件。但是，此选项在crawler-beans.cxml中不可用。org.archive.modules.writer.WARCWriterProcessor“的"warcWriter”替换为"org.archive.modules.writer.MirrorWriterProcessor“我将“路径”配置为"${launchId}

浏览 7提问于2013-07-04得票数 0

1回答

Nutch与Heritrix的比较

我想选择上面的其中之一，为特定的网站建立一个爬行框架。这不是互联网范围内的抓取。我不是建立一个搜索索引，而是有兴趣从网站上抓取特定的页面。

浏览 1提问于2010-07-16得票数 2

回答已采纳

1回答

Heritrix检索gzip CSS + JS

当我运行Heritrix时，我的web服务器gzip的JS + CSS资产。这被证明是一个问题，因为当通过Wayback加载.warc文件时，它仍然编码为gzip。

浏览 3修改于2014-08-15得票数 0

1回答

Heritrix Crawl是确定性的吗？

第1天:通过将maxDocumentsToDownload指定为100，在heritrix中创建抓取作业。第2天:在heritrix中克隆上述作业并运行。

浏览 12提问于2016-02-03得票数 0

1回答

我们如何知道Heritrix何时完成爬网作业？

在我们的应用程序中，Heritrix被用作抓取引擎，抓取工作完成后，我们将手动启动一个端点，以便从网站下载PDF。我们想自动化这个下载pdf任务，一旦抓取任务完成。HEritrix是否提供了返回作业状态的URI/webservice方法？(或者)我们是否需要创建一个轮询应用程序来持续监控作业的状态？

浏览 13提问于2016-02-09得票数 0

1回答

Java和Heritrix 3.1.x: Web内容解析？

由于Heritrix 3.x的开发人员文档大部分已经过时(其中大部分与Heritrix 1.x有关，因为大多数类都已更改或代码已被显着重写/重构)，有人能告诉我系统中处理实际网页内容提取的相关类(或类)我想要做的是获取Heritrix将要抓取的网页的内容，然后将分类器应用于该网页的内容？Heritrix应用正则表达式的内容( html)在哪里(以便查找链接、某些文件类型等)？

浏览 8修改于2013-07-23得票数 0

1回答

如何使用Python从Heritrix crawler中读取.ARC文件？

我查看了Heritrix文档网站，上面列出了一个Python .ARC文件阅读器。然而，当我点击它时，它是404没有找到。还有谁知道使用Python的Heritrix ARC阅读器？

浏览 3提问于2009-10-15得票数 2

回答已采纳

1回答

Heritrix3.2.0能够抓取基于ajax的网站吗？

是否可以使用Heritrix-3.2.0抓取基于ajax的网站？

浏览 5修改于2015-04-05得票数 2

回答已采纳

1回答

Heritrix 3.2.0:编写和添加扩展

我目前正在使用Heritrix，我有一个标准的安装(这个是：)，它工作得很好。但是现在我想要编写和添加我自己的扩展，比如改变urls的优先级，这应该被抓取，或者仅仅是一个简单的提取器。我尝试将java测试项目导出为jar文件，并将该文件放在Heritrix的lib文件夹中(其他库也在这里)。此外，我在作业的cxml文件中添加了一个bean。

浏览 4提问于2014-11-08得票数 0

1回答

Heritrix没有在条件注释块中找到CSS文件

问题/证据问题我该如何克服这个问题？它是Heritrix bug，还是我们可以通过爬虫-bean声明来解决的问题？

浏览 5修改于2015-06-18得票数 1

回答已采纳

1回答

Heritrix的HtmlFormCredential和CredentialStore的使用

我试图将身份验证添加到我的Heritrix配置中。任何人都知道如何在Heritrix建立身份验证，请帮助。更新：日志无法工作，因为不知道我的HERITRIX_HOME变量，所以它甚至从不读取日志配置文件。

浏览 1修改于2013-07-22得票数 1

回答已采纳

1回答

Heritrix单站点刮擦，包括所需的场外资产

我认为需要帮助编译Heritrix决定规则，尽管我愿意接受Heritrix的其他建议：我需要刮一整份的网站(在爬虫-beans.cxml种子列表)，但不刮任何外部(场外)页面。

浏览 6提问于2015-05-26得票数 3

回答已采纳

2回答

Heritrix 3.2.x，如何从warc文件中读取内容？

使用Heritrix 3.2.x，我抓取了一个网站，现在我想从创建的warc文件中读取HTML内容。有人能帮上忙吗？我尝试使用python warc和基于java的warc tools.jar。

浏览 21提问于2016-08-26得票数 0

1回答

如何从heritrix爬网中排除除链接/外链以外的所有内容？

我正在与Heritrix合作，但我有点纠结于管理它的输出。我正在研究PageRank，我需要Heritrix生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链。是否可以通过指定哪些内容应包含哪些内容不应包含来自定义Heritrix的输出？我已经尝试过修改cxml文件，但是输出中仍然有很多无用的信息(比如内容页面)。

浏览 5修改于2013-08-08得票数 0

第 2 页第 3 页第 4 页

点击加载更多

solr + Heritrix

使用Heritrix 1.14

边界Heritrix深度

Heritrix内容过滤

如何远程使用Heritrix的webUI

Heritrix DecidingScope regexp URI

在Heritrix 3.1.0中更改MirrorWriterProcessor的路径

Nutch与Heritrix的比较

Heritrix检索gzip CSS + JS

Heritrix Crawl是确定性的吗？

我们如何知道Heritrix何时完成爬网作业？

Java和Heritrix 3.1.x: Web内容解析？

如何使用Python从Heritrix crawler中读取.ARC文件？

Heritrix3.2.0能够抓取基于ajax的网站吗？

Heritrix 3.2.0:编写和添加扩展

Heritrix没有在条件注释块中找到CSS文件

Heritrix的HtmlFormCredential和CredentialStore的使用

Heritrix单站点刮擦，包括所需的场外资产

Heritrix 3.2.x，如何从warc文件中读取内容？

如何从heritrix爬网中排除除链接/外链以外的所有内容？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐