我想将mysql与hadoop中的一个项目集成起来。我搜索了很多不同的方法,有两种方法:实时使用mysql applier for hadoop和为非实时使用使用"apache“。
我发现Gora也有这种能力,但是我找不到任何关于如何做的信息。
Gora是实时还是不实时?gora和mysql应用程序或sqoop有什么区别?
对于hadoop和mysql的集成,是否需要任何nosql作为接口?
发布于 2014-04-30 22:18:29
目前,由于一些问题,Gora的SQL模块被禁用。它不能满足你的需要:(准备.在未来的版本将再次启用。
总之,对戈拉的一些解释:
Gora是一个对象映射(不是特定的关系)。我们可以说它专注于NoSQL,直到SQL模块重新启动.
我发现Gora是一个很好的工具,可以在后端拥有一个NoSQL,并且能够以结构化格式作为对象来获取数据。
是实时的还是不实时的?gora和mysql应用程序或sqoop有什么区别?
是的,但我想不是你想的那样。它不是一个实时自动摄取的工具,它不是一个自动插入工具,它不是一个解析器和插入,不是一个过滤器,不是一个.
它是Hadoop和一个可配置的数据存储之间的一个层(想想像Hibernate这样的ORM)。
对于hadoop和mysql的集成,是否需要任何nosql作为接口?
将其与Hadoop集成是非常容易的,可以将Hadoop配置为使用GoraMapper。您将得到一个带有对象的映射(从配置的NoSQL存储中映射)。
很快就会与猪和级联结合起来,我想:)
我的建议是:如果您想阅读MySQL,请查看Pig和Hive,尽管它们不是“实时的”(您的意思是在MySQL中插入一行后立即写入HDFS吗?)
我希望这能帮到你。
发布于 2014-05-09 17:49:59
您是否试图将MySQL实例中的数据写入HDFS?您之所以要写入HDFS以使其他Hadoop实用程序可以使用数据呢?在这种情况下,您可能希望数据以某种格式兼容,如文本、SequenceFile、ORC、Parquet等.
您是否试图通过MySQL进行查询,并希望它在HDFS中查询数据?
我是InfiniDB的一名建筑师
如果您正在查看您的数据缩放,并希望它在HDFS中,并想要一个符合MySQL兼容的DB,在HDFS之上工作,那么请查看InfiniDB。
http://infinidb.co/
我们是一个用于MySQL的柱状MPP数据库引擎,可以在HDFS之上编写IDB文件(我们优化的文件类型)。然后,您可以使用MySQL查询对数据执行分析式搜索,并获得集群中的性能(甚至一台机器都有性能提升)。您还可以使用sqoop与InfiniDB数据库中的数据进行交互,以提供来自Hadoop生态系统的交互。
https://stackoverflow.com/questions/23382832
复制相似问题