我需要处理一些大数据,并计划部署Databricks集群&一种存储技术。目前评估数据湖Gen2,它既支持对象和文件存储。存储帐户(blob、文件、表、队列)也具有类似的功能,可以处理基于文件和基于对象的存储需求。由于这些相似之处,我对选择一个方案感到有点困惑。有人能澄清以下问题吗?
发布于 2020-06-05 07:51:19
除了HDFS支持之外,我还应该对存储帐户使用Data Gen2吗?
答:还有其他好处。简而言之,它的好处是性能/管理/安全以及它的成本。有关更多细节,您可以参考这篇官方文章。
具有分层命名空间的存储帐户v2启用了==数据湖Gen2。如果是这样的话,我是否可以使用文件系统来创建文件共享并像存储acc的文件系统一样在我的VM中挂载它们?
答:当然,ADLS Gen2与blob存储一样支持文件共享挂载。
对于从Databricks访问数据,这两种方法中哪一种更适合大数据工作负载。我可以看到,存储帐户也可以作为DBFS挂载,这仍然可以利用分布式处理。
答: ADLS Gen2也可以是安装为DBFS。根据答案1,更好的应该是ADLS Gen2。
https://stackoverflow.com/questions/62176507
复制相似问题