我正在尝试从大量事务数据中找出信息性的数据模式。
通常,我的数据是一组定义良好的列的记录(如发送者、接收者、金额、货币地址等-我大约有40-50个不同的列),数据量将是数百万条(可能是上亿条)记录,我的目标是从这些记录中生成信息性的交易模式-谁购买特定商品最多,交易量最大的接收者,费用模式,谁从相同的另一个发送者那里获得更多交易等。
早些时候,我计划在关系数据库(Oracle/MySQL)中加载数据,并编写复杂的SQL来获取这些信息,但通过在概念验证期间查看卷,它似乎没有多少可伸缩性。
我试图获得更多关于使用Hadoop等分布式数据处理的信息。我刚刚开始阅读Hadoop,据我最初的理解,Hadoop非常适合非结构化数据处理,对于关系数据处理可能用处不大。
关于开源技术的任何建议和建议,我都可以快速体验一下。
发布于 2012-10-25 11:40:15
Hadoop可用于结构化/非结构化数据处理。而且,它不像传统的RDBMS那样是用来维护关系和索引的数据库。
对于数以百万计的行,可以使用HBase或Cassandra,再加上/不加上Hive来进行批量查询。Hadoop中的批处理查询已经存在了一段时间,并且已经成熟。
对于交互式查询,可以使用Drill或Imapala。请注意,Drill开发刚刚开始,并处于孵化阶段。然而,Cloudera刚刚宣布了Imapala。这里是用于实时引擎的some有趣的info。
请注意,有许多其他开源框架可能符合要求,但这里只提到其中的几个。根据详细的需求分析和不同框架的优缺点,必须选择合适的框架。
https://stackoverflow.com/questions/13059734
复制相似问题