首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >没有Databricks运行时的Delta Lake

没有Databricks运行时的Delta Lake
EN

Stack Overflow用户
提问于 2020-03-24 00:05:43
回答 4查看 2.1K关注 0票数 5

可以使用Delta Lake而不依赖于Databricks Runtime吗?(我的意思是,是否可以仅在prem上使用带有hdfs和spark的delta-lake?)如果没有,你能从技术角度解释为什么会这样吗?

EN

回答 4

Stack Overflow用户

发布于 2020-06-18 22:15:17

是的,delta已经由databricks (https://delta.io/)开源。我使用的是deltalake(0.6.1)和apache spark(2.4.5) & S3。还可以使用许多其他集成来适应现有的技术堆栈,例如hive、presto、雅典娜等的集成。连接器:https://github.com/delta-io/connectors集成:https://docs.delta.io/latest/presto-integration.html & https://docs.delta.io/latest/integrations.html

票数 6
EN

Stack Overflow用户

发布于 2020-03-26 21:36:19

根据这个https://vimeo.com/338100834,可以在没有数据库运行时的情况下使用Delta Lake。Delta Lake只是一个库,它通过维护每个表之外的特殊事务日志,“知道”如何以事务方式写入和读取表(拼接文件的集合)。当然,需要一个用于外部应用程序(例如配置单元)的特殊连接器才能处理这样的表。否则,事务性和一致性保证将无法实施。

票数 2
EN

Stack Overflow用户

发布于 2020-04-03 17:56:21

根据文档:https://docs.delta.io/latest/quick-start.html#set-up-apache-spark-with-delta-lake,delta已经开源,可以与Apache Spark一起使用。通过将delta lake jar添加到代码或将库添加到spark安装路径,可以轻松完成集成。可以使用:https://github.com/delta-io/connectors完成配置单元集成。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60817234

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档