文章/答案/技术大牛

发布

社区首页 >问答首页 >引导spark avro jar到Amazon EMR集群

问引导spark avro jar到Amazon EMR集群
EN

Stack Overflow用户

提问于 2016-08-01 16:22:54

回答 2查看 2.6K关注 0票数 1

我想从齐柏林笔记本上阅读位于亚马逊S3中的avro文件。我知道Databricks有一个非常棒的spark-avro包。为了引导这个jar文件到我的集群并使它工作，我需要采取哪些步骤？

当我把这个写在笔记本上时，val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")

我得到以下错误- <console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader

我看过这了。我想在那里发布的解决方案不适用于最新版本的Amazon。

如果有人能给我指点，那会很有帮助的。

spark-avro

amazon-web-services

amazon-emr

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-08-09 15:21:06

下面是我如何关联火花-avro依赖关系。此方法适用于将任何其他依赖项关联起来触发。

确保你的火花版本与你的火花-阿夫罗兼容。您将找到依赖项这里的详细信息。
我把我的火花-阿夫罗文件放在我的S3桶里。您可以使用hdfs或任何其他存储。
在启动EMR集群时，在配置中添加以下JSON：[{"classification":"spark-defaults", "properties":{"spark.files":"/path_to_spark-avro_jar_file", "spark.jars":"/path_to_spark-avro_jar_file"}, "configurations":[]}]

这不是唯一的办法。有关更多细节，请参阅此链接。

票数 0

Stack Overflow用户

发布于 2018-12-03 22:54:33

另一个选项是将--依赖项选项添加到星火壳或火花提交(这是为火花2.x)。

-包com.databricks:spark avro_2.11:4.0.0

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38703647

复制

相似问题

问引导spark avro jar到Amazon EMR集群
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问引导spark avro jar到Amazon EMR集群EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问引导spark avro jar到Amazon EMR集群
EN