首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Heritrix 3.2.x,如何从warc文件中读取内容?

Heritrix 3.2.x,如何从warc文件中读取内容?
EN

Stack Overflow用户
提问于 2016-08-26 15:42:35
回答 2查看 391关注 0票数 0

使用Heritrix 3.2.x,我抓取了一个网站,现在我想从创建的warc文件中读取HTML内容。有人能帮上忙吗?我尝试使用python warc和基于java的warc tools.jar。

EN

回答 2

Stack Overflow用户

发布于 2016-08-26 23:28:06

要了解warc文件的内容,只需使用某种文本编辑器即可。对于图形视图,您需要像webarchiveplayerpywbopenwayback这样的工具。

票数 0
EN

Stack Overflow用户

发布于 2017-01-06 05:29:12

您是否尝试过使用JWATJWAT Tools command line编写阅读器。

代码语言:javascript
复制
jwattools.cmd extract path.to.warc(.gz)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39160970

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档