首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark SQL :处理模式演化

Spark SQL :处理模式演化
EN

Stack Overflow用户
提问于 2017-07-25 14:55:18
回答 1查看 1.3K关注 0票数 0

我想要阅读2个avro文件,这些文件具有相同的数据集,但具有模式演化。

  1. 第一个avro文件模式:{String,String,Int}
  2. 第二个avro文件模式演化:{String,String,Long}

(Int字段经历了从long到long的过程)我想使用sparkSQL读取这两个avro文件以存储在dataframe中。

为了读取avro文件,我使用了数据库https://github.com/databricks/spark-avro的“spark”

如何有效地做到这一点。

火花版本: 2.0.1 Scala。2.11.8

PS。例如,在这里,我只提到了2个文件,但在实际场景中,每天都会生成文件,因此有1000多个这样的文件。

(预先谢谢:)

EN

回答 1

Stack Overflow用户

发布于 2017-08-11 03:27:05

使用像这样的联盟

代码语言:javascript
复制
{string,string, [int, long]} 

是您的有效解决方案吗?它应该允许读取新的和旧的文件。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45306887

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档