由于Heritrix 3.x的开发人员文档大部分已经过时(其中大部分与Heritrix 1.x有关,因为大多数类都已更改或代码已被显着重写/重构),有人能告诉我系统中处理实际网页内容提取的相关类(或类)吗?
我想要做的是获取Heritrix将要抓取的网页的内容,然后将分类器应用于该网页的内容?(分析结构特征等)我认为这个功能可能分布在ContentExtractor类和它的许多子类中,但我要做的是定位网页内容的完整位置或可读/可解析的流中的位置。Heritrix应用正则表达式的内容( html)在哪里(以便查找链接、某些文件类型等)?
发布于 2013-07-23 06:12:19
我建议研究一下自定义的WriterProcessor,我编写了一个自定义的MirrorWriter来查看传入的数据,并将文件写入到不同的位置,以便以后进行后处理。MirrorWriter类的代码相当简单,注释也很好。文档在这里:http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html
如果你一心想要进行预处理,你可以扩展org.archive.modules.extractor.ExtractorHTML并做一个动态版本。http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html
https://stackoverflow.com/questions/17750440
复制相似问题