我第一次使用AWS在S3桶中爬行一个大型json文件来创建一个新的表模式。我创建了一个新的爬虫并手动运行它。爬虫作业运行时没有出错,但是当我检查日志时,我会收到下面的EOF异常通知。
ERROR : Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-4e37-b4c8-be2e4c0c6eda_Aetna-Life-Insurance-Company.json.gz. Tables created did not infer schemas from this file.
我尝试将一个简单的测试json文件上传到同一个S3桶中,并对它运行爬虫,它完美地解析了模式。因此,我不认为这是一个权限或爬虫配置的问题。
对于如何进一步调试有任何建议吗?
发布于 2022-09-17 05:53:49
事实证明,EOFException与正在压缩的文件有关。将未压缩文件保存到S3,并在其上运行爬虫运行良好。
https://stackoverflow.com/questions/73749877
复制相似问题