首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >太多小文件HDFS Sink水槽

太多小文件HDFS Sink水槽
EN

Stack Overflow用户
提问于 2016-03-05 14:14:38
回答 2查看 912关注 0票数 0
代码语言:javascript
复制
agent.sinks=hpd
agent.sinks.hpd.type=hdfs
agent.sinks.hpd.channel=memoryChannel
agent.sinks.hpd.hdfs.path=hdfs://master:9000/user/hduser/gde
agent.sinks.hpd.hdfs.fileType=DataStream
agent.sinks.hpd.hdfs.writeFormat=Text
agent.sinks.hpd.hdfs.rollSize=0
agent.sinks.hpd.hdfs.batchSize=1000
agent.sinks.hpd.hdfs.fileSuffix=.i  
agent.sinks.hpd.hdfs.rollCount=1000
agent.sinks.hpd.hdfs.rollInterval=0

我试图使用HDFS Sink将事件写入HDFS。并且已经尝试了尺寸,计数和时间基滚动,但是没有一个像预期的那样工作。它在HDFS中生成了太多的小文件,例如:

代码语言:javascript
复制
-rw-r--r--   2 hduser supergroup      11617 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832879.i
-rw-r--r--   2 hduser supergroup       1381 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832880.i
-rw-r--r--   2 hduser supergroup        553 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832881.i
-rw-r--r--   2 hduser supergroup       2212 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832882.i
-rw-r--r--   2 hduser supergroup       1379 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832883.i
-rw-r--r--   2 hduser supergroup       2762 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832884.i.tmp

请协助解决给定的问题。我用的是水槽1.6.0

~谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-03-08 12:35:40

我提供的配置都是正确的。这种行为背后的原因是HDFS。我有两个数据节点,其中一个被关闭了。因此,文件没有达到最低要求的复制。在水槽日志中,也可以看到下面的警告消息:

“检测到阻止复制.旋转文件.”

若要消除此问题,可选择下列任何一种解决方案:

  • 在数据节点上完成所需的块复制,或
  • 相应地设置属性hdfs.minBlockReplicas

~谢谢

票数 1
EN

Stack Overflow用户

发布于 2016-03-08 08:58:14

现在,您正在滚动每1000项的文件。您可以尝试下面提到的两种方法之一。

  1. 尝试将hdfs.rollCount提高到更高的值,此值将决定每个滚动文件中包含的事件数。
  2. 删除hdfs.rollCount并将hdfs.rollInterval设置为要滚动文件的间隔。假设hdfs.rollInterval = 600每10分钟滚动一次文件。

有关更多信息,请参阅水槽文件

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35815163

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档