我刚刚开始使用Spark R。在数据库中安装了一个aws.s3存储桶。
我想使用list.files()或dir()来列出名称中包含特定模式的文件。但是,我无法检测到它的路径。我可以用sparkr::read.df读取单个文件,但我不知道如何从数千个我感兴趣的文件中找到所有文件?
非常感谢您的帮助!
发布于 2018-06-02 02:11:40
有多种方法可以做到这一点。这里有一个名为aws.s3的R包可以帮助您做到这一点:https://github.com/cloudyr/aws.s3
或者,如果您安装了aws命令行工具,您可以在R中通过system调用它。您可以在调用中包含一个grep,并执行如下操作
listOfBucketsWithABCpattern<- system("aws s3 ls | grep abc", intern=TRUE)
为了澄清,与其说这是一个SparkR问题,不如说它是一个R问题和一个AWS Command Line Interface问题。
希望这能有所帮助。干杯!
https://stackoverflow.com/questions/46191646
复制相似问题