如何根据load规划资源(我怀疑,elasticsearch实例):
对于load,我指的是≈500 K事件/min,每个事件包含8-10个字段。
我应该转动的配置旋钮是什么?我对这堆东西不熟悉。
发布于 2015-05-20 03:00:42
每分钟500,000个事件是每秒8,333个事件,对于一个小型集群(3-5台机器)来说,这应该是非常容易处理的。
问题在于将7.2亿份每日文件开放60天(43B文件)。如果10个字段中的每个字段为32个字节,则为13.8TB的磁盘空间(一个副本几乎为28 If )。
作为比较,我有5个最大的节点(64 at的RAM,31 at的堆),1.2B文档占用1.2TB的磁盘空间(双倍于副本)。这个集群无法处理每台机器只有32 it内存的负载,但它现在满意的是64 it。这是我们10天的数据。
粗略地说,您期望有40倍的文档数量比我的集群占用磁盘空间的10倍。
我面前没有确切的数字,但是我们使用doc_values的试点项目给了我们90%的堆节省。
如果所有这些数学都成立,而且doc_values是那么好的话,那么就实际的字节索引而言,您可以使用类似的集群。我希望获得更多关于拥有这么多单独文件的开销的信息。
我们已经做了一些elasticsearch调优,但可能还有更多的工作要做。
我建议你从几台64 to的机器开始。您可以根据需要添加更多内容。加入几个(较小的)客户端节点作为索引和搜索请求的前端。
https://stackoverflow.com/questions/30331768
复制相似问题