我有10个映射器的sqoop stmt。在hadoop中,整个数据分成10个部分,每个部分超过1 1GB。我想将数据分成多个较小部分的文件,不用说超过10个,大约50个文件,每个200MB。然而,由于DB瓶颈问题,我不能在一个sqoop中创建超过10个映射器。如果有什么简单的解决方案,请告诉我。
发布于 2017-03-17 20:49:12
在直接模式下有一个解决方案。
您可以使用--direct-split-size (字节)
示例:--direct-split-size 200000000将生成约为.200MB。
有关更多详细信息,请查看here。
https://stackoverflow.com/questions/42705353
复制相似问题