我想要阅读2个avro文件,这些文件具有相同的数据集,但具有模式演化。
(Int字段经历了从long到long的过程)我想使用sparkSQL读取这两个avro文件以存储在dataframe中。
为了读取avro文件,我使用了数据库https://github.com/databricks/spark-avro的“spark”
如何有效地做到这一点。
火花版本: 2.0.1 Scala。2.11.8
PS。例如,在这里,我只提到了2个文件,但在实际场景中,每天都会生成文件,因此有1000多个这样的文件。
(预先谢谢:)
发布于 2017-08-11 03:27:05
使用像这样的联盟
{string,string, [int, long]} 是您的有效解决方案吗?它应该允许读取新的和旧的文件。
https://stackoverflow.com/questions/45306887
复制相似问题