我有数to的数据要使用Apache Spark处理。我使用代码sparkContext.binaryFiles(folderpath)加载文件夹中的所有数据。我认为它会将全部数据加载到RDD中,并导致OutOfMemory错误。
如何将1TB数据拆分为250 it,并让RDD加载它?
发布于 2016-02-03 17:56:44
不幸的是,binaryFiles将每个文件作为一个条目加载到RDD中。我假设您将所有数据放在一个或几个文件中。
基本上,你有两个选择:
如果可能,
InputFormat (或搜索已了解数据格式的服务器),并正确设置拆分数量。然后,您可以使用sparkContext.hadoopFile()方法来传递输入格式。https://stackoverflow.com/questions/35173462
复制相似问题