问从WARC.gz文件中提取标头
EN

Stack Overflow用户

提问于 2014-02-21 08:30:01

回答 1查看 738关注 0票数 3

我已经在网站上搜索了很多次，但没有找到我真正需要的东西。我有一个包含数据的web.warc.gz文件，我需要提取WARC头。我已经安装了Tomcat和Wayback (1.6)，试图使用./warc header脚本来派生，这是由Wayback提供的，但我一直收到关于我使用的格式的错误消息：

Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz \r\n\ 
~/Desktop/output.csv type \r\n
      USAGE: tgtWarc fieldsSrc id
        tgtWarc is the path to the target WARC.gz
          fieldsSrc is the path to the text of the record
    make sure each line is terminated by \r\n
    and that the file ends with a blank, \r\n terminiated line
id is the XXX in:
    Content-Description: Made from XXX by org.archive.wayback.util.WARCHeader
    of the header record... header...

或者其他类型的错误：

   Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz 
    ~/Desktop/output.csv Content-Type
    java.io.IOException: End-Of-Stream before \r\n\r\n End-Of-ANVLRecord:

at org.archive.util.anvl.ANVLRecord.load(ANVLRecord.java:163)
at org.archive.wayback.util.WARCHeader.writeHeaderRecord(WARCHeader.java:43)
at org.archive.wayback.util.WARCHeader.main(WARCHeader.java:75)

我很确定这是我在命令行中编写的一种格式，但我仍然不能正确地使用它。请帮帮忙？

python

war

warc

回答 1

Stack Overflow用户

发布于 2015-04-02 19:23:31

您可以使用以下github项目代码获取它：

https://github.com/Smerity/cc-warc-examples/blob/master/src/org/commoncrawl/examples/S3ReaderTest.java

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21922726

复制

相似问题

问从WARC.gz文件中提取标头
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从WARC.gz文件中提取标头EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从WARC.gz文件中提取标头
EN