版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
在之前的文章中描述了Spark+CDH的编译步骤, spark-2.1.0-bin-2.6.0-cdh5.x源码编译 但是,Spark2.4.4的编译命令和前版本略有区别: 需要去掉hadoop-3.0.0
主要内容 spark部署 前提 zookeeper正常使用 JAVA_HOME环境变量 HADOOP_HOME环境变量 安装包 微云下载 | tar包目录下 Spark2.4.4 一、环境准备
hudi数据目录 hadoop fs -ls -R /tmp/hudi_trips_cow1 到完成了简单的Spark与Hudi的集成测试 5.总结 1.Hudi0.9.0版本与Spark的集成,至少需要Spark2.4.4
如上图所示,由于我们在内存上的优化,通过对比吞吐量和内存占用,pDataSource 用30%的内存资源就可以达到 Spark2.4.4 120% 的性能。 3.