文章/答案/技术大牛

发布

社区首页 >问答首页 >在火花分析之前从FTP读取大文本文件

问在火花分析之前从FTP读取大文本文件
EN

Stack Overflow用户

提问于 2017-12-24 20:06:11

回答 2查看 318关注 0票数 0

我在我的系统中以独立模式运行spark (希望在将来进行分发)，以分析一个大于5 GB的非常大的文件。首先，我需要将这个文件从FTP复制到我的本地e.g c:\spark\analysis\bigfile.txt，然后我就可以加载spark文件进行分析了。

我的问题是，如何才能高效地复制如此大的文件而不会出现内存不足？有没有可能在spark中实现？我应该使用像kafka这样的流媒体库吗？

同样的方式，我需要在完成spark分析后向ftp服务器写入一个大文件。

apache-spark

apache-spark-sql

bigdata

回答 2

Stack Overflow用户

发布于 2017-12-25 04:11:33

您可以使用Bluezone或任何其他连接终端仿真器的边缘节点来使用简单的外壳命令：

cat bigfile.txt | ssh yourUserName@yourServer 'hdfs dfs -put - /pathTo/hdfs'

虽然它会慢一点，但它对我来说适用于300 It的文件。

注意:我这样做是因为我的文件在没有安装Hadoop的服务器上。如果您的服务器安装了Hadoop，那么您可以简单地尝试hdfs dfs -put

票数 0

Stack Overflow用户

发布于 2017-12-25 20:00:06

通过stdin将其导入：

区块引用

wget ftp://user:password@ftpserver/your_file | hadoop fs -put - path_in_hdfs

区块引用

single -告诉HDFS从标准输入读取数据。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47960443

复制

相似问题

问在火花分析之前从FTP读取大文本文件
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在火花分析之前从FTP读取大文本文件EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在火花分析之前从FTP读取大文本文件
EN