我想将数据帧作为Gzip编码的csv文件上传到服务器,而不将其保存在光盘上。
使用spark-csv库很容易构建一些使用Gzip编码的csv文件:
df.write
.format("com.databricks.spark.csv")
.option("header", "true")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.save(s"result.csv.gz")但是我不知道如何获得代表我的DataFrame的Array[Byte],我可以通过HTTP上传
发布于 2019-09-09 21:28:01
您可以写入远程服务器作为远程hdfs服务器,您需要在远程服务器上安装hdfs,但在此之后,您应该能够执行以下操作
df.write
.format("com.databricks.spark.csv")
.option("header", "true")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.save("hdfs://your_remote_server_hostname_or_ip/result.csv.gz")https://stackoverflow.com/questions/57854549
复制相似问题