问Heritrix 3.2.x，如何从warc文件中读取内容？
EN

Stack Overflow用户

提问于 2016-08-26 15:42:35

回答 2查看 391关注 0票数 0

使用Heritrix 3.2.x，我抓取了一个网站，现在我想从创建的warc文件中读取HTML内容。有人能帮上忙吗？我尝试使用python warc和基于java的warc tools.jar。

发布于 2016-08-26 23:28:06

要了解warc文件的内容，只需使用某种文本编辑器即可。对于图形视图，您需要像webarchiveplayer、pywb或openwayback这样的工具。

票数 0

发布于 2017-01-06 05:29:12

您是否尝试过使用JWAT或JWAT Tools command line编写阅读器。

jwattools.cmd extract path.to.warc(.gz)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39160970

复制

相似问题

问Heritrix 3.2.x，如何从warc文件中读取内容？EN