文章/答案/技术大牛

发布

社区首页 >问答首页 >大容量交易数据信息模式生成

问大容量交易数据信息模式生成
EN

Stack Overflow用户

提问于 2012-10-25 08:08:26

回答 1查看 502关注 0票数 1

我正在尝试从大量事务数据中找出信息性的数据模式。

通常，我的数据是一组定义良好的列的记录(如发送者、接收者、金额、货币地址等-我大约有40-50个不同的列)，数据量将是数百万条(可能是上亿条)记录，我的目标是从这些记录中生成信息性的交易模式-谁购买特定商品最多，交易量最大的接收者，费用模式，谁从相同的另一个发送者那里获得更多交易等。

早些时候，我计划在关系数据库(Oracle/MySQL)中加载数据，并编写复杂的SQL来获取这些信息，但通过在概念验证期间查看卷，它似乎没有多少可伸缩性。

我试图获得更多关于使用Hadoop等分布式数据处理的信息。我刚刚开始阅读Hadoop，据我最初的理解，Hadoop非常适合非结构化数据处理，对于关系数据处理可能用处不大。

关于开源技术的任何建议和建议，我都可以快速体验一下。

hadoop

distributed-computing

large-data-volumes

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-25 11:40:15

Hadoop可用于结构化/非结构化数据处理。而且，它不像传统的RDBMS那样是用来维护关系和索引的数据库。

对于数以百万计的行，可以使用HBase或Cassandra，再加上/不加上Hive来进行批量查询。Hadoop中的批处理查询已经存在了一段时间，并且已经成熟。

对于交互式查询，可以使用Drill或Imapala。请注意，Drill开发刚刚开始，并处于孵化阶段。然而，Cloudera刚刚宣布了Imapala。这里是用于实时引擎的some有趣的info。

请注意，有许多其他开源框架可能符合要求，但这里只提到其中的几个。根据详细的需求分析和不同框架的优缺点，必须选择合适的框架。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13059734

复制

相似问题

问大容量交易数据信息模式生成
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大容量交易数据信息模式生成EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大容量交易数据信息模式生成
EN