首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在火花分析之前从FTP读取大文本文件

在火花分析之前从FTP读取大文本文件
EN

Stack Overflow用户
提问于 2017-12-24 20:06:11
回答 2查看 318关注 0票数 0

我在我的系统中以独立模式运行spark (希望在将来进行分发),以分析一个大于5 GB的非常大的文件。首先,我需要将这个文件从FTP复制到我的本地e.g c:\spark\analysis\bigfile.txt,然后我就可以加载spark文件进行分析了。

我的问题是,如何才能高效地复制如此大的文件而不会出现内存不足?有没有可能在spark中实现?我应该使用像kafka这样的流媒体库吗?

同样的方式,我需要在完成spark分析后向ftp服务器写入一个大文件。

EN

回答 2

Stack Overflow用户

发布于 2017-12-25 04:11:33

您可以使用Bluezone或任何其他连接终端仿真器的边缘节点来使用简单的外壳命令:

cat bigfile.txt | ssh yourUserName@yourServer 'hdfs dfs -put - /pathTo/hdfs'

虽然它会慢一点,但它对我来说适用于300 It的文件。

注意:我这样做是因为我的文件在没有安装Hadoop的服务器上。如果您的服务器安装了Hadoop,那么您可以简单地尝试hdfs dfs -put

票数 0
EN

Stack Overflow用户

发布于 2017-12-25 20:00:06

通过stdin将其导入:

区块引用

wget ftp://user:password@ftpserver/your_file | hadoop fs -put - path_in_hdfs

区块引用

single -告诉HDFS从标准输入读取数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47960443

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档