我目前正在解析来自CommonCrawl语料库的WARC文件,我想知道在不迭代所有WARC记录的情况下,有多少条记录。
WARC 1.1标准是否定义了这些信息?
发布于 2021-01-24 20:59:19
WARC标准没有定义一种标准方法来指示WARC文件本身中的WARC记录数。Common Crawl WARC文件中的响应记录数量通常在30,000到50,000之间-请注意,还有请求和元数据记录。WARC标准推荐1 GB as target size of WARC files,它对记录的数量施加了自然的限制。
https://stackoverflow.com/questions/65848795
复制相似问题