问Apache Parquet数据存储引擎？
EN

Stack Overflow用户

提问于 2019-03-18 14:35:09

回答 1查看 278关注 0票数 0

从链接sql-data-sources-parquet，我看到下面的代码片段存储了数据拼图格式，但根据我的理解，从wiki得到的只是一种格式，而不是一个存储引擎。因此，Parquet将以特定格式将数据存储在HDFS/S3/Cassandra等存储引擎上，不是吗？所以我的问题是，下面的代码片段将在哪里存储这些数据，因为我没有看到任何提到HDFS/S3/Cassandra等存储引擎的内容

Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");

// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");

// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");

apache-spark

parquet

java

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-18 14:47:35

它是从URL方案推导出来的，例如s3://examples/src/main/resources/people.json或hdfs://examples/src/main/resources/people.json。从方案到org.apache.hadoop.fs.FileSystem实现的映射在hadoop配置中维护。例如

<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>

我会将s3://...映射到S3AFileSystem，一些常见的文件系统有默认值，以防它们没有显式配置。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55215767

复制

相似问题

问Apache Parquet数据存储引擎？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Parquet数据存储引擎？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Parquet数据存储引擎？
EN