文章/答案/技术大牛

发布

社区首页 >问答首页 >Avro schema ( .avsc )在Pyspark中的实施

问Avro schema ( .avsc )在Pyspark中的实施
EN

Stack Overflow用户

提问于 2021-03-23 12:46:58

回答 1查看 433关注 0票数 1

有人可以帮助我通过Pyspark读取avro schema (.avsc )，并在将数据帧写入目标存储时强制执行它吗？我所有的targetr表模式都是以.avsc文件的形式提供的，在Pyspark中保存我的数据框架时，我需要提供这个自定义模式。我知道有像databricks的spark-avro这样的库。但是所有的例子都是用Scala给出的。

avro

spark-avro

pyspark

回答 1

Stack Overflow用户

发布于 2021-03-25 21:57:12

使用此文件/tmp/test.avsc

{
     "type": "record",
     "namespace": "com.example",
     "name": "FullName",
     "fields": [
       { "name": "first", "type": "string" },
       { "name": "last", "type": "string" }
     ]
}

像这样的数据帧：

df = spark.createDataFrame([{"first": "john", "last": "parker" }], StructType([StructField("first", StringType()), StructField("last", StringType())]))

结果是：

+-----+------+
|first|  last|
+-----+------+
| john|parker|
+-----+------+

您可以执行以下操作来强制写入架构：

jsonFormatSchema = open("/tmp/test.avsc", "r").read() 
df.write.format("avro").options(avroSchema=jsonFormatSchema).save("/tmp/avro")

与强制执行读取模式类似：

spark.read.format('avro').options(avroSchema=jsonFormatSchema).load("/tmp/avro")

这里提供了更多信息，顺便说一句，这里有足够多的python示例：https://spark.apache.org/docs/latest/sql-data-sources-avro.html

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66757417

复制

相似问题

问Avro schema ( .avsc )在Pyspark中的实施
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Avro schema ( .avsc )在Pyspark中的实施EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Avro schema ( .avsc )在Pyspark中的实施
EN