首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何拆分输入数据并将其加载到RDD

如何拆分输入数据并将其加载到RDD
EN

Stack Overflow用户
提问于 2016-02-03 17:46:42
回答 1查看 136关注 0票数 1

我有数to的数据要使用Apache Spark处理。我使用代码sparkContext.binaryFiles(folderpath)加载文件夹中的所有数据。我认为它会将全部数据加载到RDD中,并导致OutOfMemory错误。

如何将1TB数据拆分为250 it,并让RDD加载它?

EN

回答 1

Stack Overflow用户

发布于 2016-02-03 17:56:44

不幸的是,binaryFiles将每个文件作为一个条目加载到RDD中。我假设您将所有数据放在一个或几个文件中。

基本上,你有两个选择:

如果可能,

  • 会将文件拆分为较小的文件(实际方法取决于了解您的数据格式的data format)
  • Implement InputFormat (或搜索已了解数据格式的服务器),并正确设置拆分数量。然后,您可以使用sparkContext.hadoopFile()方法来传递输入格式。
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35173462

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档