文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark SQL :处理模式演化

问Spark SQL :处理模式演化
EN

Stack Overflow用户

提问于 2017-07-25 14:55:18

回答 1查看 1.3K关注 0票数 0

我想要阅读2个avro文件，这些文件具有相同的数据集，但具有模式演化。

第一个avro文件模式：{String，String，Int}
第二个avro文件模式演化：{String，String，Long}

(Int字段经历了从long到long的过程)我想使用sparkSQL读取这两个avro文件以存储在dataframe中。

为了读取avro文件，我使用了数据库https://github.com/databricks/spark-avro的“spark”

如何有效地做到这一点。

火花版本: 2.0.1 Scala。2.11.8

PS。例如，在这里，我只提到了2个文件，但在实际场景中，每天都会生成文件，因此有1000多个这样的文件。

(预先谢谢：)

apache-spark

apache-spark-sql

avro

spark-avro

回答 1

Stack Overflow用户

发布于 2017-08-11 03:27:05

使用像这样的联盟

{string,string, [int, long]}

是您的有效解决方案吗？它应该允许读取新的和旧的文件。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45306887

复制

相似问题

问Spark SQL :处理模式演化
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark SQL :处理模式演化EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark SQL :处理模式演化
EN