首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于url从WARC文件中检索记录

基于url从WARC文件中检索记录
EN

Stack Overflow用户
提问于 2018-03-20 06:46:37
回答 1查看 1.2K关注 0票数 2

我必须根据Target-URI从*.warc.gz文件中检索记录。文档指出,这需要创建外部CDXJ索引文件。

我尝试以gzip.open()的形式打开文件并执行一个seek(offset),但是查找操作需要相当长的时间(秒)。

有没有其他正确的方法来取回记录。

编辑:我正在使用warc库,它们似乎没有在warc文件上提供直接的f.seek()。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-20 07:42:04

您应该在解压缩之前对文件进行查找。通常,WARC文件通过记录压缩记录,CDXJ中的偏移量和长度允许删除单个WARC记录,然后在单个记录上执行gzip.open()。有疑问的话,最好用图书馆。沃西奥甚至提供了一个命令行工具,通过偏移量:warcio extract xyz.warc.gz offset提取单个记录。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49377839

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档