首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从WARC.gz文件中提取标头

从WARC.gz文件中提取标头
EN

Stack Overflow用户
提问于 2014-02-21 08:30:01
回答 1查看 738关注 0票数 3

我已经在网站上搜索了很多次,但没有找到我真正需要的东西。我有一个包含数据的web.warc.gz文件,我需要提取WARC头。我已经安装了Tomcat和Wayback (1.6),试图使用./warc header脚本来派生,这是由Wayback提供的,但我一直收到关于我使用的格式的错误消息:

代码语言:javascript
复制
Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz \r\n\ 
~/Desktop/output.csv type \r\n
      USAGE: tgtWarc fieldsSrc id
        tgtWarc is the path to the target WARC.gz
          fieldsSrc is the path to the text of the record
    make sure each line is terminated by \r\n
    and that the file ends with a blank, \r\n terminiated line
id is the XXX in:
    Content-Description: Made from XXX by org.archive.wayback.util.WARCHeader
    of the header record... header... 

或者其他类型的错误:

代码语言:javascript
复制
   Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz 
    ~/Desktop/output.csv Content-Type
    java.io.IOException: End-Of-Stream before \r\n\r\n End-Of-ANVLRecord:

at org.archive.util.anvl.ANVLRecord.load(ANVLRecord.java:163)
at org.archive.wayback.util.WARCHeader.writeHeaderRecord(WARCHeader.java:43)
at org.archive.wayback.util.WARCHeader.main(WARCHeader.java:75)

我很确定这是我在命令行中编写的一种格式,但我仍然不能正确地使用它。请帮帮忙?

EN

回答 1

Stack Overflow用户

发布于 2015-04-02 19:23:31

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21922726

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档