文章/答案/技术大牛

发布

社区首页 >问答首页 >使用DataFrame进行混合内容XML解析

问使用DataFrame进行混合内容XML解析
EN

Stack Overflow用户

提问于 2018-01-02 23:13:24

回答 1查看 231关注 0票数 7

我有一个包含混合内容的XML文档，我正在使用Dataframe中的自定义模式来解析它。我遇到了一个问题，模式只会提取"Measure“的文本。

XML如下所示

<QData>
    <Measure> some text here
        <Answer>Answer1</Answer>
        <Question>Question1</Question>
    </Measure>
    <Measure> some text here
        <Answer>Answer1</Answer>
        <Question>Question1</Question>
    </Meaure>
</QData>

我的模式如下：

def getCustomSchema():StructType = {StructField("QData",
      StructType(Array(
        StructField("Measure",
          StructType( Array( 
            StructField("Answer",StringType,true),
            StructField("Question",StringType,true)                
        )),true)
      )),true)}

当我尝试访问测量中的数据时，我只能得到“这里的一些文本”，当我试图从Answer获取信息时，它失败了。我也只得到了一个指标。

编辑:这就是我尝试访问数据的方式

val result = sc.read.format("com.databricks.spark.xml").option("attributePrefix", "attr_").schema(getCustomSchema)
    .load(filename.toString)

val qDfTemp = result.mapPartitions(partition =>{val mapper = new QDMapper();partition.map(row=>{mapper(row)}).flatMap(list=>list)}).toDF()

case class QDMapper(){
    def apply(row: Row):List[QData]={
        val qDList = new ListBuffer[QData]()
        val qualData = row.getAs[Row]("QData") //When I print as list I get the first Measure text and that is it
        val measure = qualData.getAs[Row]("Measure") //This fails
}
}

dataframe

xml-parsing

scala

apache-spark

回答 1

Stack Overflow用户

发布于 2021-02-16 17:49:49

您可以使用行标记作为根标记，并访问其他元素：-

df_schema = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='<xml_tag_name>').load(schema_path)

有关简要代码，请访问https://github.com/harshaltaware/Pyspark/blob/main/Spark-data-parsing/xmlparsing.py

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48063362

复制

相似问题

问使用DataFrame进行混合内容XML解析
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用DataFrame进行混合内容XML解析EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用DataFrame进行混合内容XML解析
EN