首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自定义数据源的自动火花模式推理

自定义数据源的自动火花模式推理
EN

Stack Overflow用户
提问于 2016-05-31 12:49:56
回答 1查看 816关注 0票数 0

我正在为自定义数据源(属性文件)实现spark(1.5.2) sql RelationProvider。

请解释一下如何实现自动推理算法好吗?

EN

回答 1

Stack Overflow用户

发布于 2016-05-31 17:33:10

通常,您需要创建一个表示模式的StructTypeStructType包含一个Array[StructField],其中数组的每个元素对应于架构中的一个列。StructField可以是任何受支持的DataType --包括用于嵌套模式的另一个StructType

创建模式可以非常简单,如:

代码语言:javascript
复制
val schema = StructType(Array(
  StructField("col1", StringType),
  StructField("col2", LongType)
))

如果您想要从一个复杂的数据集(包括嵌套StructTypes )生成一个模式,那么您很可能需要创建一个递归函数。在spark-avro集成库中可以找到这类函数的一个很好的示例。函数toSqlType接受一个Avro模式并将其转换为SparkStructType

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37546260

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档