我想从齐柏林笔记本上阅读位于亚马逊S3中的avro文件。我知道Databricks有一个非常棒的spark-avro包。为了引导这个jar文件到我的集群并使它工作,我需要采取哪些步骤?
当我把这个写在笔记本上时,val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")
我得到以下错误- <console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader
我看过这了。我想在那里发布的解决方案不适用于最新版本的Amazon。
如果有人能给我指点,那会很有帮助的。
发布于 2016-08-09 15:21:06
下面是我如何关联火花-avro依赖关系。此方法适用于将任何其他依赖项关联起来触发。
[{"classification":"spark-defaults", "properties":{"spark.files":"/path_to_spark-avro_jar_file", "spark.jars":"/path_to_spark-avro_jar_file"}, "configurations":[]}]这不是唯一的办法。有关更多细节,请参阅此链接。
发布于 2018-12-03 22:54:33
另一个选项是将--依赖项选项添加到星火壳或火花提交(这是为火花2.x)。
-包com.databricks:spark avro_2.11:4.0.0
https://stackoverflow.com/questions/38703647
复制相似问题