我对使用Pig加载HCatalog感到很舒服,并且想知道是否有可能使用Spark来代替Pig。不幸的是,我对Spark还很陌生。
你能提供一些关于如何开始的材料吗?有没有什么Spark库可以使用?有什么例子吗?我把所有的练习都放在了http://spark.apache.org/上,但它们都集中在RDD上,不再深入了。
我将非常感谢任何帮助..。
问候
帕韦尔
发布于 2014-08-18 20:03:05
您可以参考下面的链接,了解如何将HCatalog InputFormat包装器与Spark一起使用;该链接是在SparkSQL之前编写的。
发布于 2015-03-25 21:27:46
您可以使用spark SQL来读取Hive Table,而不是HCatalog。
您可以使用Spark Java/Scala/Python语言应用相同的转换,如Pig,如filter、join、group by。
发布于 2015-02-03 22:32:26
我们的系统已经加载了这两个,我们可以使用它们中的任何一个。Spark继承了你正在使用的语言的特点,Scala,Python……例如,结合使用Spark和Python,您可以在Spark中利用许多Python库。
https://stackoverflow.com/questions/25308731
复制相似问题