我需要流读取到非常大的文件(在TBs中)。为了达到更高的吞吐量,如果我们能够缓存文件部分在内存中。Spark可以在分布式内存中缓存数据。如何使用spark缓存文件部件?
文件大于任何一台计算机的本地存储空间,也大于集群中内存总容量的总和。
发布于 2014-05-09 06:02:56
您可以调优一些缓存相关参数,以帮助您将数据放入内存中(使用kryo序列化保持数据序列化,等等)。有关防御,请参见内存调谐指南。
您还可以考虑将数据分解为各个部分(单独的文件、分区表等)。只装载其中的一部分。
https://stackoverflow.com/questions/23539511
复制相似问题