是否有可能在内部实施delta lake?如果是,需要安装哪些软件/工具?
我正在尝试在本地实现一个增量湖,以分析一些日志文件和数据库表。我现在的机器上装了ubuntu,apache spark。不确定还需要哪些其他工具。
是否有任何其他工具建议来实施内部数据湖概念?
发布于 2021-02-13 23:58:13
是的,您可以在内部使用Delta Lake。这只是一个使用Delta库的正确版本的问题(0.6.1用于Spark 2.4,0.8.0用于Spark 3.0)。或者运行spark-shell/pyspark,如下所示(对于Spark 3.0):
pyspark --packages io.delta:delta-core_2.12:0.8.0然后,您可以以Delta格式写入数据,如下所示:
spark.range(1000).write.format("delta").mode("append").save("1.delta")它也可以处理本地文件,但是如果你需要构建一个真正的数据湖,那么你需要使用开箱即用的HDFS。
https://stackoverflow.com/questions/66125902
复制相似问题