首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop数据提取

Hadoop数据提取
EN

Stack Overflow用户
提问于 2017-09-05 04:12:12
回答 1查看 627关注 0票数 0

我正在尝试创建一个命中Hadoop的进程,并将数据提取到我本地的windows机器上。我成功地在ODBC上创建并能够测试连接。进一步研究后,我发现我需要使用Microsoft Hive odbc,并且我无法在连接上获得成功的测试。我对使用不同的工具持开放态度,但我想要一些关于实现我想要做的事情的最佳方式的意见。我正在寻找的数据也存在于ftp服务器上,并且已经加载到Hadoop上,我可以从ftp服务器上获取它,但我宁愿从Hadoop中提取它。我是一个全新的Hadoop新手,我已经研究和阅读过,但还没有找到解决方案。我知道解决方案就在那里,我只是没有找对地方,有人能给我指个正确的方向吗?

EN

回答 1

Stack Overflow用户

发布于 2017-09-05 09:54:27

点击Hadoop并将数据提取到我本地的windows机器上

第一个建议: Apache Spark

我在ODBC上成功创建了

,并能够测试连接

Hadoop不提供ODBC...Hive可以

进一步研究,我发现我需要使用Microsoft Hive odbc

你的数据在Azure中吗?据我所知,这是你使用微软驱动程序的唯一原因

想要一些关于实现我正在尝试做的事情的最佳方法的一些意见

这一点还不清楚。到目前为止,您已经提到了SQL工具,它不能通过ODBC访问...

如果您将数据存储在Hive中,JDBC/ODBC将工作得很好,但如果您决定在Hadoop中的YARN集群上运行它,Spark会更快。

我可以从

服务器上得到它,但我宁愿从Hadoop上拉它。

就我个人而言,我不建议您从Hadoop获得它

  1. Hadoop (更准确地说,是HDFS)不是FTP
  2. 的替代品如果你的文件“足够小”可以很好地存储在FTP中,那么就没有理由将它们提取到HDFS中,因为HDFS针对处理相当大的文件进行了优化。
  3. 您是hadoop的新手,您建议您可以轻松地提取FTP文件。

第二个建议:如果您不想在Hadoop生态系统中使用某个工具,但不想显式使用HDFS,那么可以尝试一下提供GetFTP processor的项目。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46043491

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档