我们目前正在记录使用MySQL的几个网站的印象数据,并正在寻找一个更合适的替代记录流量的高流量,我们的网站现在看到。我们在MySQL数据库中最终需要的是聚合数据。
所谓“大容量”,我的意思是说,我们每个月要为这个印象数据记录大约5000万个条目。需要注意的是,这个表活动几乎完全是、写,而且很少读取。(与SO:哪个NoSQL数据库用于极高的数据量上的这个用例不同)。我们通过按范围划分数据并执行批量插入来解决一些MySQL性能问题,但从总体上讲,我们不应该使用MySQL。
我们在MySQL数据库中最终需要的是聚合数据,我相信还有更适合这个用例的大容量日志记录部分的其他技术。我读过关于mongodb、HBase (与地图缩减一起)、卡桑德拉和阿帕奇水槽的文章,我觉得自己走在正确的轨道上,但需要一些关于我应该研究的技术(或组合)的指导。
我特别想知道的是,哪些平台最适合大容量日志记录,以及如何每天将聚集/减少的数据集输入到MySQL中。
发布于 2015-09-10 20:14:17
Hive不存储信息,它只允许您使用类似的sql语言(HQL)查询“原始”数据。
如果聚合数据足够小,可以存储在MySQL中,而这是数据的唯一用途,那么HBase可能对您来说太大了。
我的建议是使用Hadoop (HDFS和MapReduce )
发布于 2015-09-10 09:44:53
一种方法是简单地将原始印象日志转储到平面文件中。将有一个每天的批处理这些文件使用MapReduce程序。MapReduce聚合输出可以存储到Hive或HBase中。
如果你发现这种方法有什么问题,请告诉我。Bigdata技术栈基于数据类型和需要聚合的方式有许多选项。
https://stackoverflow.com/questions/32489888
复制相似问题