在爬虫从WARC1.8升级到1.14之后,我们注意到我们的StormCrawler条目的响应类型已经从" WARC - type : response“更改为"WARC-Type: resource”。对如何切换回"WARC-Type: response“有什么建议吗?
发布于 2019-11-21 23:11:33
在1.8和1.14之间,WARCRecordFormat没有任何变化-如果有可用的逐字HTTP响应头,则会写入响应记录。如果没有HTTP头,则使用WARC resource记录。
为了存储HTTP报头,需要进行以下配置:
http.store.headers: true
http.protocol.implementation: com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol
https.protocol.implementation: com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol有关更多信息,请参阅README of the WARC module。
https://stackoverflow.com/questions/58972183
复制相似问题