文章/答案/技术大牛

发布

社区首页 >问答首页 >Java和Heritrix 3.1.x: Web内容解析？

问Java和Heritrix 3.1.x: Web内容解析？
EN

Stack Overflow用户

提问于 2013-07-19 23:54:48

回答 1查看 494关注 0票数 0

由于Heritrix 3.x的开发人员文档大部分已经过时(其中大部分与Heritrix 1.x有关，因为大多数类都已更改或代码已被显着重写/重构)，有人能告诉我系统中处理实际网页内容提取的相关类(或类)吗？

我想要做的是获取Heritrix将要抓取的网页的内容，然后将分类器应用于该网页的内容？(分析结构特征等)我认为这个功能可能分布在ContentExtractor类和它的许多子类中，但我要做的是定位网页内容的完整位置或可读/可解析的流中的位置。Heritrix应用正则表达式的内容( html)在哪里(以便查找链接、某些文件类型等)？

java

web-crawler

webpage

document-classification

heritrix

回答 1

Stack Overflow用户

发布于 2013-07-23 06:12:19

我建议研究一下自定义的WriterProcessor，我编写了一个自定义的MirrorWriter来查看传入的数据，并将文件写入到不同的位置，以便以后进行后处理。MirrorWriter类的代码相当简单，注释也很好。文档在这里：http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果你一心想要进行预处理，你可以扩展org.archive.modules.extractor.ExtractorHTML并做一个动态版本。http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17750440

复制

相似问题

问Java和Heritrix 3.1.x: Web内容解析？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java和Heritrix 3.1.x: Web内容解析？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java和Heritrix 3.1.x: Web内容解析？
EN