我正在设置一个水槽代理的属性,我不确定我应该为batchSize使用什么值(要批处理发送的事件的数量)。
在我的特殊情况下,我将使用控制台作为接收器。据我所知,记录器-接收器是在本例中使用的类型。但是Flume文档没有提到这类水槽的batchSize参数。难道没有必要为记录器-接收器定义一个batchSize吗?
发布于 2017-02-27 09:52:23
嗯,我找到了一个问题的答案:难道没有必要为记录器-接收器定义一个batchSize吗?
https://flume.apache.org/FlumeUserGuide.html#logger-sink没有batchSize,而是有一个参数calle maxBytesToLog,它定义要记录的事件体的最大字节数(默认情况下它的值是16)。这里有一个使用控制台作为接收器的Flume代理的简单示例:
node.sources = my-source
node.channels = my-channel
node.sinks = my-sink
# Since node 1 sink is avro-type, here we indicate avro as source type
node.sources.my-source.type = avro
node.sources.my-source.bind = 0.0.0.0
node.sources.my-source.port = 11112
node.sources.my-source.channels = my-channel
node.channels.my-channel.type = memory
node.channels.my-channel.capacity = 10000
node.channels.my-channel.transactionCapacity = 100
node.sinks.my-sink.type = logger
node.sinks.my-sink.channel = my-channel
node.sinks.my-sink.maxBytesToLog = 256资料来源:https://medium.com/@DCA/something-about-flume-3cb720ba00e8#.37zs23dnt
关于如何确定汇的batchSize的主要问题
关于hdfs批处理大小,您的批处理大小越大,性能就越好。但是,请记住,如果事务失败,整个事务将被重放,这可能会在下游产生重复事件的含义。
https://stackoverflow.com/questions/42480292
复制相似问题