首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >内部部署的delta

内部部署的delta
EN

Stack Overflow用户
提问于 2021-02-10 03:36:42
回答 1查看 555关注 0票数 2

是否有可能在内部实施delta lake?如果是,需要安装哪些软件/工具?

我正在尝试在本地实现一个增量湖,以分析一些日志文件和数据库表。我现在的机器上装了ubuntu,apache spark。不确定还需要哪些其他工具。

是否有任何其他工具建议来实施内部数据湖概念?

EN

回答 1

Stack Overflow用户

发布于 2021-02-13 23:58:13

是的,您可以在内部使用Delta Lake。这只是一个使用Delta库的正确版本的问题(0.6.1用于Spark 2.4,0.8.0用于Spark 3.0)。或者运行spark-shell/pyspark,如下所示(对于Spark 3.0):

代码语言:javascript
复制
pyspark --packages io.delta:delta-core_2.12:0.8.0

然后,您可以以Delta格式写入数据,如下所示:

代码语言:javascript
复制
spark.range(1000).write.format("delta").mode("append").save("1.delta")

它也可以处理本地文件,但是如果你需要构建一个真正的数据湖,那么你需要使用开箱即用的HDFS。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66125902

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档