首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理Nifi中的小文件问题

如何处理Nifi中的小文件问题
EN

Stack Overflow用户
提问于 2018-09-22 03:19:36
回答 1查看 379关注 0票数 0

我目前在Nifi的流程是这样的

代码语言:javascript
复制
ListHDFS->FetchHDFS->SplitText->JoltransformJSon->PUTHBaseJSON. 

每小时输入的JSON文件最多为10 of。单个文件大小为80 -100MB。

Splittext & JoltTransform ->转换文本并将其作为4KB文件发送。因此,每小时的作业最多需要50到1.20分钟来完成流程。我怎么才能让它更快。处理用例的最佳流程是什么?

我尝试过使用Mergecontent,但效果并不好。

感谢所有人

EN

回答 1

Stack Overflow用户

发布于 2018-09-22 03:39:42

您可以在MergeRecord Processor和之后使用JoltTransfromJson Processor

使用最大仓位年龄属性作为通配符,强制将符合条件的仓位合并为。

然后使用面向记录的处理器,即PutHBaseRecord处理器,并配置您的记录读取器控制器服务(JsonTree读取器)来读取传入的流文件,并调优Batch size属性值以获得最佳性能。

通过使用此过程,我们正在处理记录块,这最终会提高将数据存储到HBase中的性能。

流程:

代码语言:javascript
复制
ListHDFS->FetchHDFS->SplitText->JoltransformJSon->MergeRecord ->PUTHBaseRecord

有关Merge Record configsRecord Reader configs,请参阅以下链接

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52449925

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档