有没有一种简单的方法来使用Spark API (我使用PySpark API)和binaryFiles方法来读取目录中包含的给定文件集?我如何使用binaryFiles读取这些文件,而不将它们复制到另一个目录中,因为它们是大文件?现在,我正在创建一个带有符号链接的文件夹,并使用binaryFiles('./*')来读取该文件夹中的所有链接。但我认为它不适合长期使用。一些技巧:我正在研究regexp,这样我就可以向binaryFiles传递一个自定义字符串来选择适当的文件,但是解决方案可能在其他
因此,我使用了SparkContext.readFile方法,如下所示:
val zipFileRDD = sc.binaryFiles("./handsOn/repo~apache~storm~14135470~false~Java~master~2210.zip BinaryFileRDD[4] at binaryFiles at <console
(filesInZip.toList)我以下列方式执行上述代码:
scala> val zipFileRDD = sc.binaryFiles("./handsOn/repo~apache~storm~14135470~false~Java~master~2210.zip BinaryFileRDD[17] at binaryFiles at <console