首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大容量交易数据信息模式生成

大容量交易数据信息模式生成
EN

Stack Overflow用户
提问于 2012-10-25 08:08:26
回答 1查看 502关注 0票数 1

我正在尝试从大量事务数据中找出信息性的数据模式。

通常,我的数据是一组定义良好的列的记录(如发送者、接收者、金额、货币地址等-我大约有40-50个不同的列),数据量将是数百万条(可能是上亿条)记录,我的目标是从这些记录中生成信息性的交易模式-谁购买特定商品最多,交易量最大的接收者,费用模式,谁从相同的另一个发送者那里获得更多交易等。

早些时候,我计划在关系数据库(Oracle/MySQL)中加载数据,并编写复杂的SQL来获取这些信息,但通过在概念验证期间查看卷,它似乎没有多少可伸缩性。

我试图获得更多关于使用Hadoop等分布式数据处理的信息。我刚刚开始阅读Hadoop,据我最初的理解,Hadoop非常适合非结构化数据处理,对于关系数据处理可能用处不大。

关于开源技术的任何建议和建议,我都可以快速体验一下。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-25 11:40:15

Hadoop可用于结构化/非结构化数据处理。而且,它不像传统的RDBMS那样是用来维护关系和索引的数据库。

对于数以百万计的行,可以使用HBaseCassandra,再加上/不加上Hive来进行批量查询。Hadoop中的批处理查询已经存在了一段时间,并且已经成熟。

对于交互式查询,可以使用DrillImapala。请注意,Drill开发刚刚开始,并处于孵化阶段。然而,Cloudera刚刚宣布了Imapala。这里是用于实时引擎的some有趣的info

请注意,有许多其他开源框架可能符合要求,但这里只提到其中的几个。根据详细的需求分析和不同框架的优缺点,必须选择合适的框架。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13059734

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档