我需要一些关于Databricks DBFS的说明。
简单地说,它是什么,它的目的是什么,它允许我做什么?
关于数据库的文档,是这样写的。
“DBFS中的文件将持久化到Azure Blob存储,因此即使在终止群集之后也不会丢失数据。”
任何洞察力都是有帮助的,还没有找到从体系结构和使用角度深入其细节的文档。
发布于 2019-02-25 12:57:48
我有使用DBFS的经验,它是一个很好的存储空间,您可以使用DBFS 从本地计算机上传数据!CLI设置有点棘手,但是当您管理时,您可以很容易地在这个环境中移动整个文件夹(记住使用-overwrite!)
使用Scala,您可以使用如下代码轻松地提取存储在此存储中的数据:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/test.csv")
.select(some_column_name)或在整个文件夹中读取以处理所有csv可用文件:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/*.csv")
.select(some_column_name)我认为这是很容易使用和学习,我希望你发现这个信息有帮助!
发布于 2019-11-04 19:29:24
Databricks文件系统( Databricks File System,DBFS)是安装到Databricks工作区并在Databricks集群上可用的分布式文件系统。
DBFS是可伸缩对象存储之上的抽象,它提供了以下好处:
1)允许您挂载存储对象,以便可以无缝地访问数据而不需要凭据。
2)允许您使用目录和文件语义(而不是存储URL)与对象存储交互。将文件保存到对象存储(Blob),以便在终止群集后不会丢失数据。
下面的链接将帮助您更好地理解Databricks实用程序命令:数据库.文件系统链接
发布于 2020-02-01 15:17:21
除了其他的答案外,还有几点值得一提:
https://stackoverflow.com/questions/54812733
复制相似问题