使用Heritrix 3.2.x,我抓取了一个网站,现在我想从创建的warc文件中读取HTML内容。有人能帮上忙吗?我尝试使用python warc和基于java的warc tools.jar。
发布于 2016-08-26 23:28:06
要了解warc文件的内容,只需使用某种文本编辑器即可。对于图形视图,您需要像webarchiveplayer、pywb或openwayback这样的工具。
发布于 2017-01-06 05:29:12
您是否尝试过使用JWAT或JWAT Tools command line编写阅读器。
jwattools.cmd extract path.to.warc(.gz)https://stackoverflow.com/questions/39160970
复制相似问题