首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从heritrix爬网中排除除链接/外链以外的所有内容?

如何从heritrix爬网中排除除链接/外链以外的所有内容?
EN

Stack Overflow用户
提问于 2013-07-25 20:24:58
回答 1查看 277关注 0票数 0

我正在与Heritrix合作,但我有点纠结于管理它的输出。

我正在研究PageRank,我需要Heritrix生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链。

我希望避免(尽可能多地)后处理。是否可以通过指定哪些内容应包含哪些内容不应包含来自定义Heritrix的输出?我已经尝试过修改cxml文件,但是输出中仍然有很多无用的信息(比如内容页面)。

EN

回答 1

Stack Overflow用户

发布于 2013-12-18 10:48:10

不写代码就不可能直接做你所描述的事情。如果您准备编写代码,可以编写一个非常简单的处理器或ScriptedProcessor,它以您喜欢的任何格式转储CrawlURI.getOutLinks()。

但我建议使用后处理。我不知道你为什么要避开它。你可以使用https://github.com/internetarchive/warctools的"warcfilter“工具。运行"warcfilter --type “只过滤掉包含外链列表的元数据记录。您可以使用grep进一步减少它。

Inlink是一个更大的问题。您必须搜索所有warcs的外部链接,才能获得任何给定url的内部链接。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17857972

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档