有人能建议我如何使用Apache spark解析EDIFACT格式的数据吗?
我有一个要求,因为每天的EDIFACT数据将写入亚马逊网络服务s3桶。我正在尝试找到一种使用Apache spark将这些数据转换为结构化格式的最佳方法。
发布于 2018-11-12 22:28:12
如果您有EDIFACT格式的发票,您可以使用RDD将每个发票读取为一个字符串。然后,您将拥有一个代表分布式发票收款的RDDString。看看https://github.com/CenPC434/java-tools,您可以将EDIFACT字符串转换为XML.这个repo https://github.com/databricks/spark-xml展示了如何使用XML格式作为输入源来创建数据帧,并执行多个查询,聚合...等。
https://stackoverflow.com/questions/53263234
复制相似问题