首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >调试Glue Crawler EOFException

调试Glue Crawler EOFException
EN

Stack Overflow用户
提问于 2022-09-16 20:10:40
回答 1查看 28关注 0票数 0

我第一次使用AWS在S3桶中爬行一个大型json文件来创建一个新的表模式。我创建了一个新的爬虫并手动运行它。爬虫作业运行时没有出错,但是当我检查日志时,我会收到下面的EOF异常通知。

ERROR : Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-4e37-b4c8-be2e4c0c6eda_Aetna-Life-Insurance-Company.json.gz. Tables created did not infer schemas from this file.

我尝试将一个简单的测试json文件上传到同一个S3桶中,并对它运行爬虫,它完美地解析了模式。因此,我不认为这是一个权限或爬虫配置的问题。

对于如何进一步调试有任何建议吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-09-17 05:53:49

事实证明,EOFException与正在压缩的文件有关。将未压缩文件保存到S3,并在其上运行爬虫运行良好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73749877

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档