文章/答案/技术大牛

发布

社区首页 >问答首页 >数据库DBFS

问数据库DBFS
EN

Stack Overflow用户

提问于 2019-02-21 17:15:41

回答 3查看 1.2K关注 0票数 4

我需要一些关于Databricks DBFS的说明。

简单地说，它是什么，它的目的是什么，它允许我做什么？

关于数据库的文档，是这样写的。

“DBFS中的文件将持久化到Azure Blob存储，因此即使在终止群集之后也不会丢失数据。”

任何洞察力都是有帮助的，还没有找到从体系结构和使用角度深入其细节的文档。

azure

file

system

databricks

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-02-25 12:57:48

我有使用DBFS的经验，它是一个很好的存储空间，您可以使用DBFS 从本地计算机上传数据！CLI设置有点棘手，但是当您管理时，您可以很容易地在这个环境中移动整个文件夹(记住使用-overwrite！)

创建文件夹
上传文件
修改、删除文件和文件夹

使用Scala，您可以使用如下代码轻松地提取存储在此存储中的数据：

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

或在整个文件夹中读取以处理所有csv可用文件：

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

我认为这是很容易使用和学习，我希望你发现这个信息有帮助！

票数 5

Stack Overflow用户

发布于 2019-11-04 19:29:24

Databricks文件系统( Databricks File System，DBFS)是安装到Databricks工作区并在Databricks集群上可用的分布式文件系统。

DBFS是可伸缩对象存储之上的抽象，它提供了以下好处：

1)允许您挂载存储对象，以便可以无缝地访问数据而不需要凭据。

2)允许您使用目录和文件语义(而不是存储URL)与对象存储交互。将文件保存到对象存储(Blob)，以便在终止群集后不会丢失数据。

下面的链接将帮助您更好地理解Databricks实用程序命令：数据库.文件系统链接

票数 3

Stack Overflow用户

发布于 2020-02-01 15:17:21

除了其他的答案外，还有几点值得一提：

AFAIK，您不需要支付与DBFS相关的存储成本。相反，您需要支付每小时的费用来运行DBX上的作业。
尽管它将数据存储在云中的blob/s3中，但您不能直接访问该存储。这意味着您必须使用DBX或cli来访问这个存储。
这就引出了第三个，也是显而易见的一点，使用DBFS将更紧密地将您的星火应用程序耦合到DBX。这可能是你想要做的，也可能不是你想做的。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54812733

复制

相似问题

问数据库DBFS
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据库DBFSEN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据库DBFS
EN