问如何拆分输入数据并将其加载到RDD
EN

Stack Overflow用户

提问于 2016-02-03 17:46:42

回答 1查看 136关注 0票数 1

我有数to的数据要使用Apache Spark处理。我使用代码sparkContext.binaryFiles(folderpath)加载文件夹中的所有数据。我认为它会将全部数据加载到RDD中，并导致OutOfMemory错误。

如何将1TB数据拆分为250 it，并让RDD加载它？

发布于 2016-02-03 17:56:44

不幸的是，binaryFiles将每个文件作为一个条目加载到RDD中。我假设您将所有数据放在一个或几个文件中。

基本上，你有两个选择：

如果可能，

会将文件拆分为较小的文件(实际方法取决于了解您的数据格式的data format)
Implement InputFormat (或搜索已了解数据格式的服务器)，并正确设置拆分数量。然后，您可以使用sparkContext.hadoopFile()方法来传递输入格式。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35173462

复制

相似问题

问如何拆分输入数据并将其加载到RDDEN