如何运行tpc数据生成(dsdgen),然后以并行分布式模式对这些数据(dsqgen)运行查询。我正在使用火花上的纱线配置(spark.master yarn)和存储数据的突发缓冲存储系统。
发布于 2019-07-24 12:35:01
请查看我目前的探索@ https://github.com/dhiraa/spark-tpcds。T下有应用程序,可用于并行生成数据。
或者您可以查看我的reference @ https://github.com/maropu/spark-tpcds-datagen
在这两种情况下,不要忘记使用选项“-分区表”来使用并行生成。
https://stackoverflow.com/questions/56631851
复制相似问题