首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据库DBFS

数据库DBFS
EN

Stack Overflow用户
提问于 2019-02-21 17:15:41
回答 3查看 1.2K关注 0票数 4

我需要一些关于Databricks DBFS的说明。

简单地说,它是什么,它的目的是什么,它允许我做什么?

关于数据库的文档,是这样写的。

“DBFS中的文件将持久化到Azure Blob存储,因此即使在终止群集之后也不会丢失数据。”

任何洞察力都是有帮助的,还没有找到从体系结构和使用角度深入其细节的文档。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-02-25 12:57:48

我有使用DBFS的经验,它是一个很好的存储空间,您可以使用DBFS 从本地计算机上传数据!CLI设置有点棘手,但是当您管理时,您可以很容易地在这个环境中移动整个文件夹(记住使用-overwrite!)

  1. 创建文件夹
  2. 上传文件
  3. 修改、删除文件和文件夹

使用Scala,您可以使用如下代码轻松地提取存储在此存储中的数据:

代码语言:javascript
复制
val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

或在整个文件夹中读取以处理所有csv可用文件:

代码语言:javascript
复制
val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

我认为这是很容易使用和学习,我希望你发现这个信息有帮助!

票数 5
EN

Stack Overflow用户

发布于 2019-11-04 19:29:24

Databricks文件系统( Databricks File System,DBFS)是安装到Databricks工作区并在Databricks集群上可用的分布式文件系统。

DBFS是可伸缩对象存储之上的抽象,它提供了以下好处:

1)允许您挂载存储对象,以便可以无缝地访问数据而不需要凭据。

2)允许您使用目录和文件语义(而不是存储URL)与对象存储交互。将文件保存到对象存储(Blob),以便在终止群集后不会丢失数据。

下面的链接将帮助您更好地理解Databricks实用程序命令:数据库.文件系统链接

票数 3
EN

Stack Overflow用户

发布于 2020-02-01 15:17:21

除了其他的答案外,还有几点值得一提:

  1. AFAIK,您不需要支付与DBFS相关的存储成本。相反,您需要支付每小时的费用来运行DBX上的作业。
  2. 尽管它将数据存储在云中的blob/s3中,但您不能直接访问该存储。这意味着您必须使用DBX或cli来访问这个存储。
  3. 这就引出了第三个,也是显而易见的一点,使用DBFS将更紧密地将您的星火应用程序耦合到DBX。这可能是你想要做的,也可能不是你想做的。
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54812733

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档