首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >引导spark avro jar到Amazon EMR集群

引导spark avro jar到Amazon EMR集群
EN

Stack Overflow用户
提问于 2016-08-01 16:22:54
回答 2查看 2.6K关注 0票数 1

我想从齐柏林笔记本上阅读位于亚马逊S3中的avro文件。我知道Databricks有一个非常棒的spark-avro包。为了引导这个jar文件到我的集群并使它工作,我需要采取哪些步骤?

当我把这个写在笔记本上时,val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")

我得到以下错误- <console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader

我看过了。我想在那里发布的解决方案不适用于最新版本的Amazon。

如果有人能给我指点,那会很有帮助的。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-08-09 15:21:06

下面是我如何关联火花-avro依赖关系。此方法适用于将任何其他依赖项关联起来触发。

  1. 确保你的火花版本与你的火花-阿夫罗兼容。您将找到依赖项这里的详细信息。
  2. 我把我的火花-阿夫罗文件放在我的S3桶里。您可以使用hdfs或任何其他存储。
  3. 在启动EMR集群时,在配置中添加以下JSON:[{"classification":"spark-defaults", "properties":{"spark.files":"/path_to_spark-avro_jar_file", "spark.jars":"/path_to_spark-avro_jar_file"}, "configurations":[]}]

这不是唯一的办法。有关更多细节,请参阅此链接

票数 0
EN

Stack Overflow用户

发布于 2018-12-03 22:54:33

另一个选项是将--依赖项选项添加到星火壳或火花提交(这是为火花2.x)。

-包com.databricks:spark avro_2.11:4.0.0

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38703647

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档