我们在Azure数据湖存储中有大约100 GB的JSON文件。我们需要将它们转换为CSV文件并保存到同一个azure数据湖store.What中的不同文件夹中。
发布于 2017-03-22 00:16:25
为此,您有几个选择。这通常是一个简单的两步过程:提取和输出。
答:您可以运行ADLA/U-SQL作业来执行此操作。下面是U-SQL https://github.com/Azure/usql/tree/master/Examples/DataFormats/Microsoft.Analytics.Samples.Formats中JSON提取器的一个示例。
B.另一个选择是创建一个HDInsight集群来转换数据。您可以使用您选择的任何应用程序。下面是一个在PIG中执行此操作的示例:https://acadgild.com/blog/converting-json-into-csv-using-pig/
发布于 2017-03-27 01:34:59
我已经用Azure Data Factory尝试过了,它是直接的,零coding.The源和宿都是通过简单的一对一映射在管道中改变的ADLS.Nothing。我们不关心性能,因为它对我们来说是一个批处理作业,下面是性能的快速统计。
> Data Read: 42.68 GB Data Written: 12.97 GB Data volume: 42.68 GB Rows:
> 54520950 Throughput: 3.97 MB/s Billed duration for data movement:
> 03:03:41https://stackoverflow.com/questions/42919745
复制相似问题