首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Java和Heritrix 3.1.x: Web内容解析?

Java和Heritrix 3.1.x: Web内容解析?
EN

Stack Overflow用户
提问于 2013-07-19 23:54:48
回答 1查看 494关注 0票数 0

由于Heritrix 3.x的开发人员文档大部分已经过时(其中大部分与Heritrix 1.x有关,因为大多数类都已更改或代码已被显着重写/重构),有人能告诉我系统中处理实际网页内容提取的相关类(或类)吗?

我想要做的是获取Heritrix将要抓取的网页的内容,然后将分类器应用于该网页的内容?(分析结构特征等)我认为这个功能可能分布在ContentExtractor类和它的许多子类中,但我要做的是定位网页内容的完整位置或可读/可解析的流中的位置。Heritrix应用正则表达式的内容( html)在哪里(以便查找链接、某些文件类型等)?

EN

回答 1

Stack Overflow用户

发布于 2013-07-23 06:12:19

我建议研究一下自定义的WriterProcessor,我编写了一个自定义的MirrorWriter来查看传入的数据,并将文件写入到不同的位置,以便以后进行后处理。MirrorWriter类的代码相当简单,注释也很好。文档在这里:http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果你一心想要进行预处理,你可以扩展org.archive.modules.extractor.ExtractorHTML并做一个动态版本。http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17750440

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档