我有一个拼花文件,我在我的申请中至少读了4-5次。我想知道什么是最有效率的事情。
选项1.在写入拼花文件时,在dataset上读回它并调用缓存。我假设通过立即读取,我可能会使用一些现有的hdfs/spark缓存作为写入过程的一部分。
选项2.在我的应用程序中,当我第一次需要dataset时,在读取它之后缓存它。
选项3.在编写拼花文件时,在完成后创建一个临时视图。在所有后续使用中,请使用该视图。
我也不是很清楚的阅读效率从tempview与拼花数据集。
数据集并不能全部存储在内存中。
发布于 2016-11-06 03:53:04
您应该缓存数据集(选项2)。
https://stackoverflow.com/questions/40445769
复制相似问题