从链接sql-data-sources-parquet,我看到下面的代码片段存储了数据拼图格式,但根据我的理解,从wiki得到的只是一种格式,而不是一个存储引擎。因此,Parquet将以特定格式将数据存储在HDFS/S3/Cassandra等存储引擎上,不是吗?所以我的问题是,下面的代码片段将在哪里存储这些数据,因为我没有看到任何提到HDFS/S3/Cassandra等存储引擎的内容
Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");
// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");
// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");发布于 2019-03-18 14:47:35
它是从URL方案推导出来的,例如s3://examples/src/main/resources/people.json或hdfs://examples/src/main/resources/people.json。从方案到org.apache.hadoop.fs.FileSystem实现的映射在hadoop配置中维护。例如
<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>我会将s3://...映射到S3AFileSystem,一些常见的文件系统有默认值,以防它们没有显式配置。
https://stackoverflow.com/questions/55215767
复制相似问题