我在s3中得到了2Gb的csv文件(管道分隔),
在上面运行胶水爬虫,创建新表。
当运行athena的查询时,它发现零条记录(尽管它正确地返回列)没有应用任何分区,只要尽可能默认地运行爬虫即可。有什么建议吗?
注意-用于所有操作的aws consol
发布于 2019-04-04 15:59:57
查询不返回数据的可能性是
如果您在添加爬虫时在桶名中指定了文件名。
Let's say your bucket name is testbucket and the csv file is test.csv,
so while adding the crawler you need to specify your bucket name as s3://testbucket/
and not s3://testbucket/test.csv另外,如果字段是由管道分隔的,那么它们将仅显示在单列下,因为文件扩展名为.csv (逗号分隔)。因此,理想情况下,字段应该分隔为逗号,以便获取适当的输出。
因此,尝试指定如上所述的桶名。希望这能把数据还回来。
如果数据仍然没有返回,请尝试创建一个新的爬虫,并且在创建新的爬虫时不要使用现有的IAM角色。创建一个新角色。有时,IAM策略在获取数据时会出现故障。
https://stackoverflow.com/questions/55517333
复制相似问题