问如何将数据帧上传为流，而不保存在光盘上？
EN

Stack Overflow用户

提问于 2019-09-09 20:58:37

回答 1查看 55关注 0票数 1

我想将数据帧作为Gzip编码的csv文件上传到服务器，而不将其保存在光盘上。

使用spark-csv库很容易构建一些使用Gzip编码的csv文件：

df.write
    .format("com.databricks.spark.csv")
    .option("header", "true")
    .option("codec", "org.apache.hadoop.io.compress.GzipCodec")
    .save(s"result.csv.gz")

但是我不知道如何获得代表我的DataFrame的Array[Byte]，我可以通过HTTP上传

apache-spark

spark-csv

scala

回答 1

Stack Overflow用户

发布于 2019-09-09 21:28:01

您可以写入远程服务器作为远程hdfs服务器，您需要在远程服务器上安装hdfs，但在此之后，您应该能够执行以下操作

df.write
    .format("com.databricks.spark.csv")
    .option("header", "true")
    .option("codec", "org.apache.hadoop.io.compress.GzipCodec")
    .save("hdfs://your_remote_server_hostname_or_ip/result.csv.gz")

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57854549

复制

相似问题

问如何将数据帧上传为流，而不保存在光盘上？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将数据帧上传为流，而不保存在光盘上？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将数据帧上传为流，而不保存在光盘上？
EN