我们刚刚有人向我们声称,由于可靠性的原因,我们应该避免在Databricks中使用Spark SQL库。我从来没有遇到过使用这个库的问题(尽管我还在spark/Databricks的新手区域),有人能澄清吗?或者他们是在试图引导我们走上花园小路?
发布于 2020-12-02 15:09:01
Spark SQL是一个用于结构化数据处理的Spark模块。它提供了一种称为DataFrames的编程抽象,也可以充当分布式SQL查询引擎。它基于Shark SQL AmpLab Project,并被采用为Apache Spark模块。
Spark SQL还包括基于成本的优化器、列存储和代码生成,以提高查询速度。同时,它使用Spark引擎扩展到数千个节点和数小时查询,该引擎提供了完整的中间查询容错能力,而不必担心使用不同的引擎来处理历史数据。
因此,不用担心在你的项目中使用它。它是一个高度成熟和经过战斗测试的库。
https://stackoverflow.com/questions/65103531
复制相似问题