首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >记录大量印象数据(5 000万条记录/月)

记录大量印象数据(5 000万条记录/月)
EN

Stack Overflow用户
提问于 2015-09-09 22:06:34
回答 2查看 449关注 0票数 1

我们目前正在记录使用MySQL的几个网站的印象数据,并正在寻找一个更合适的替代记录流量的高流量,我们的网站现在看到。我们在MySQL数据库中最终需要的是聚合数据。

所谓“大容量”,我的意思是说,我们每个月要为这个印象数据记录大约5000万个条目。需要注意的是,这个表活动几乎完全是、写,而且很少读取。(与SO:哪个NoSQL数据库用于极高的数据量上的这个用例不同)。我们通过按范围划分数据并执行批量插入来解决一些MySQL性能问题,但从总体上讲,我们不应该使用MySQL。

我们在MySQL数据库中最终需要的是聚合数据,我相信还有更适合这个用例的大容量日志记录部分的其他技术。我读过关于mongodbHBase (与地图缩减一起)、卡桑德拉阿帕奇水槽的文章,我觉得自己走在正确的轨道上,但需要一些关于我应该研究的技术(或组合)的指导。

我特别想知道的是,哪些平台最适合大容量日志记录,以及如何每天将聚集/减少的数据集输入到MySQL中。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-09-10 20:14:17

Hive不存储信息,它只允许您使用类似的sql语言(HQL)查询“原始”数据。

如果聚合数据足够小,可以存储在MySQL中,而这是数据的唯一用途,那么HBase可能对您来说太大了。

我的建议是使用Hadoop (HDFS和MapReduce )

  1. 创建带有印象事件的日志文件(文本文件)。
  2. 然后将它们移动到HDFS中(如果您需要一个近乎实时的解决方案,可以使用kafka或storm )。
  3. 创建一个能够读取和聚合日志的MapReduce作业,并在减少输出中使用DBOutputFormat将聚合的数据存储到MySql中。
票数 1
EN

Stack Overflow用户

发布于 2015-09-10 09:44:53

一种方法是简单地将原始印象日志转储到平面文件中。将有一个每天的批处理这些文件使用MapReduce程序。MapReduce聚合输出可以存储到Hive或HBase中。

如果你发现这种方法有什么问题,请告诉我。Bigdata技术栈基于数据类型和需要聚合的方式有许多选项。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32489888

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档