文章/答案/技术大牛

发布

社区首页 >问答首页 >记录大量印象数据(5 000万条记录/月)

问记录大量印象数据(5 000万条记录/月)
EN

Stack Overflow用户

提问于 2015-09-09 22:06:34

回答 2查看 449关注 0票数 1

我们目前正在记录使用MySQL的几个网站的印象数据，并正在寻找一个更合适的替代记录流量的高流量，我们的网站现在看到。我们在MySQL数据库中最终需要的是聚合数据。

所谓“大容量”，我的意思是说，我们每个月要为这个印象数据记录大约5000万个条目。需要注意的是，这个表活动几乎完全是、写，而且很少读取。(与SO：哪个NoSQL数据库用于极高的数据量上的这个用例不同)。我们通过按范围划分数据并执行批量插入来解决一些MySQL性能问题，但从总体上讲，我们不应该使用MySQL。

我们在MySQL数据库中最终需要的是聚合数据，我相信还有更适合这个用例的大容量日志记录部分的其他技术。我读过关于mongodb、HBase (与地图缩减一起)、卡桑德拉和阿帕奇水槽的文章，我觉得自己走在正确的轨道上，但需要一些关于我应该研究的技术(或组合)的指导。

我特别想知道的是，哪些平台最适合大容量日志记录，以及如何每天将聚集/减少的数据集输入到MySQL中。

database

nosql

mysql

mongodb

hadoop

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-09-10 20:14:17

Hive不存储信息，它只允许您使用类似的sql语言(HQL)查询“原始”数据。

如果聚合数据足够小，可以存储在MySQL中，而这是数据的唯一用途，那么HBase可能对您来说太大了。

我的建议是使用Hadoop (HDFS和MapReduce )

创建带有印象事件的日志文件(文本文件)。
然后将它们移动到HDFS中(如果您需要一个近乎实时的解决方案，可以使用kafka或storm )。
创建一个能够读取和聚合日志的MapReduce作业，并在减少输出中使用DBOutputFormat将聚合的数据存储到MySql中。

票数 1

Stack Overflow用户

发布于 2015-09-10 09:44:53

一种方法是简单地将原始印象日志转储到平面文件中。将有一个每天的批处理这些文件使用MapReduce程序。MapReduce聚合输出可以存储到Hive或HBase中。

如果你发现这种方法有什么问题，请告诉我。Bigdata技术栈基于数据类型和需要聚合的方式有许多选项。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32489888

复制

相似问题

问记录大量印象数据(5 000万条记录/月)
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问记录大量印象数据(5 000万条记录/月)EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问记录大量印象数据(5 000万条记录/月)
EN