我必须根据Target-URI从*.warc.gz文件中检索记录。文档指出,这需要创建外部CDXJ索引文件。
我尝试以gzip.open()的形式打开文件并执行一个seek(offset),但是查找操作需要相当长的时间(秒)。
有没有其他正确的方法来取回记录。
编辑:我正在使用warc库,它们似乎没有在warc文件上提供直接的f.seek()。
发布于 2018-03-20 07:42:04
您应该在解压缩之前对文件进行查找。通常,WARC文件通过记录压缩记录,CDXJ中的偏移量和长度允许删除单个WARC记录,然后在单个记录上执行gzip.open()。有疑问的话,最好用图书馆。沃西奥甚至提供了一个命令行工具,通过偏移量:warcio extract xyz.warc.gz offset提取单个记录。
https://stackoverflow.com/questions/49377839
复制相似问题