腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(80)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
4
回答
solr +
Heritrix
如何将solr与
heritrix
集成?谢谢
浏览 4
修改于2012-07-03
得票数 2
回答已采纳
1
回答
使用
Heritrix
1.14
浏览了帖子和您建议的解决方案-- 停留在导出
HERITRIX
_HOME=/PATH/TO/BUILT/
HERITRIX
。该命令以静默方式运行,但cd $
heritrix
_home结果为 -bash: cd: /root/
heritrix
-1.14.4/bin/
heritrix
:不是目录。chmod
浏览 2
修改于2017-05-23
得票数 0
2
回答
边界
Heritrix
深度
我是
Heritrix
的新手,正在使用heritirx 1.14。我不知道如何做以下事情: 1)绑定下载链接的BFS深度到一个特定的数字,例如3.2)限制下载的类型为html和text。
浏览 1
提问于2010-06-20
得票数 1
1
回答
Heritrix
内容过滤
我目前正在试用
Heritrix
(3.2.0),看看它是否能满足我的需求。这是我想要做的一个例子。我将
Heritrix
指向URL,如下所示...example.com/news/speeches。我想阻止
Heritrix
导航超过1级,如果不在example.com域的这个特定路径下,则阻止它拉出内容
浏览 13
提问于2015-08-15
得票数 1
2
回答
如何远程使用
Heritrix
的webUI
你好,我一直在与
Heritrix
玩,并希望将它包含在一个网站上/允许远程访问它。我查看了手册,发现了-b命令将其绑定到远程主机,但是文档可能更好。
浏览 5
修改于2013-12-21
得票数 0
回答已采纳
1
回答
Heritrix
DecidingScope regexp URI
我正在使用
HERITRIX
爬行一个名为octetfarm.com的站点。我希望爬虫在URI (或URL)上执行regexp,如果字符串"octetfarm“存在,爬虫应该接受它。
浏览 4
修改于2020-06-20
得票数 0
1
回答
在
Heritrix
3.1.0中更改MirrorWriterProcessor的路径
我正在使用
Heritrix
3.1.0进行爬行。我正在尝试使用MirrorWriterProcessor保存文件。但是,此选项在crawler-beans.cxml中不可用。org.archive.modules.writer.WARCWriterProcessor“的"warcWriter”替换为"org.archive.modules.writer.MirrorWriterProcessor“我将“路径”配置为"${launchId}
浏览 7
提问于2013-07-04
得票数 0
1
回答
Nutch与
Heritrix
的比较
我想选择上面的其中之一,为特定的网站建立一个爬行框架。这不是互联网范围内的抓取。我不是建立一个搜索索引,而是有兴趣从网站上抓取特定的页面。
浏览 1
提问于2010-07-16
得票数 2
回答已采纳
1
回答
Heritrix
检索gzip CSS + JS
当我运行
Heritrix
时,我的web服务器gzip的JS + CSS资产。 这被证明是一个问题,因为当通过Wayback加载.warc文件时,它仍然编码为gzip。
浏览 3
修改于2014-08-15
得票数 0
1
回答
Heritrix
Crawl是确定性的吗?
第1天:通过将maxDocumentsToDownload指定为100,在
heritrix
中创建抓取作业。第2天:在
heritrix
中克隆上述作业并运行。
浏览 12
提问于2016-02-03
得票数 0
1
回答
我们如何知道
Heritrix
何时完成爬网作业?
在我们的应用程序中,
Heritrix
被用作抓取引擎,抓取工作完成后,我们将手动启动一个端点,以便从网站下载PDF。我们想自动化这个下载pdf任务,一旦抓取任务完成。
HEritrix
是否提供了返回作业状态的URI/webservice方法?(或者)我们是否需要创建一个轮询应用程序来持续监控作业的状态?
浏览 13
提问于2016-02-09
得票数 0
1
回答
Java和
Heritrix
3.1.x: Web内容解析?
由于
Heritrix
3.x的开发人员文档大部分已经过时(其中大部分与
Heritrix
1.x有关,因为大多数类都已更改或代码已被显着重写/重构),有人能告诉我系统中处理实际网页内容提取的相关类(或类)我想要做的是获取
Heritrix
将要抓取的网页的内容,然后将分类器应用于该网页的内容?
Heritrix
应用正则表达式的内容( html)在哪里(以便查找链接、某些文件类型等)?
浏览 8
修改于2013-07-23
得票数 0
1
回答
如何使用Python从
Heritrix
crawler中读取.ARC文件?
我查看了
Heritrix
文档网站,上面列出了一个Python .ARC文件阅读器。然而,当我点击它时,它是404没有找到。 还有谁知道使用Python的
Heritrix
ARC阅读器?
浏览 3
提问于2009-10-15
得票数 2
回答已采纳
1
回答
Heritrix
3.2.0能够抓取基于ajax的网站吗?
是否可以使用
Heritrix
-3.2.0抓取基于ajax的网站?
浏览 5
修改于2015-04-05
得票数 2
回答已采纳
1
回答
Heritrix
没有在条件注释块中找到CSS文件
问题/证据<!--[if (gt IE 8)|!(IE)]><!-->问题 我该如何克服这个问题?它是
Heritrix
bug,还是我们可以通过爬虫-bean声明来解决的问题?
浏览 5
修改于2015-06-18
得票数 1
回答已采纳
1
回答
Heritrix
3.2.0:编写和添加扩展
我目前正在使用
Heritrix
,我有一个标准的安装(这个是:),它工作得很好。 但是现在我想要编写和添加我自己的扩展,比如改变urls的优先级,这应该被抓取,或者仅仅是一个简单的提取器。我尝试将java测试项目导出为jar文件,并将该文件放在
Heritrix
的lib文件夹中(其他库也在这里)。此外,我在作业的cxml文件中添加了一个bean。
浏览 4
提问于2014-11-08
得票数 0
1
回答
Heritrix
的HtmlFormCredential和CredentialStore的使用
我试图将身份验证添加到我的
Heritrix
配置中。任何人都知道如何在
Heritrix
建立身份验证,请帮助。 更新:日志无法工作,因为不知道我的
HERITRIX
_HOME变量,所以它甚至从不读取日志配置文件。
浏览 1
修改于2013-07-22
得票数 1
回答已采纳
1
回答
Heritrix
单站点刮擦,包括所需的场外资产
我认为需要帮助编译
Heritrix
决定规则,尽管我愿意接受
Heritrix
的其他建议: 我需要刮一整份的网站(在爬虫-beans.cxml种子列表),但不刮任何外部(场外)页面。
浏览 6
提问于2015-05-26
得票数 3
回答已采纳
2
回答
Heritrix
3.2.x,如何从warc文件中读取内容?
使用
Heritrix
3.2.x,我抓取了一个网站,现在我想从创建的warc文件中读取HTML内容。有人能帮上忙吗?我尝试使用python warc和基于java的warc tools.jar。
浏览 21
提问于2016-08-26
得票数 0
1
回答
如何从
heritrix
爬网中排除除链接/外链以外的所有内容?
我正在与
Heritrix
合作,但我有点纠结于管理它的输出。 我正在研究PageRank,我需要
Heritrix
生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链。是否可以通过指定哪些内容应包含哪些内容不应包含来自定义
Heritrix
的输出?我已经尝试过修改cxml文件,但是输出中仍然有很多无用的信息(比如内容页面)。
浏览 5
修改于2013-08-08
得票数 0
第 2 页
第 3 页
第 4 页
点击加载更多
领券