文章/答案/技术大牛

发布

问Hadoop数据提取
EN

Stack Overflow用户

提问于 2017-09-05 04:12:12

回答 1查看 627关注 0票数 0

我正在尝试创建一个命中Hadoop的进程，并将数据提取到我本地的windows机器上。我成功地在ODBC上创建并能够测试连接。进一步研究后，我发现我需要使用Microsoft Hive odbc，并且我无法在连接上获得成功的测试。我对使用不同的工具持开放态度，但我想要一些关于实现我想要做的事情的最佳方式的意见。我正在寻找的数据也存在于ftp服务器上，并且已经加载到Hadoop上，我可以从ftp服务器上获取它，但我宁愿从Hadoop中提取它。我是一个全新的Hadoop新手，我已经研究和阅读过，但还没有找到解决方案。我知道解决方案就在那里，我只是没有找对地方，有人能给我指个正确的方向吗？

hadoop

回答 1

Stack Overflow用户

发布于 2017-09-05 09:54:27

点击Hadoop并将数据提取到我本地的windows机器上

第一个建议: Apache Spark

我在ODBC上成功创建了

，并能够测试连接

Hadoop不提供ODBC...Hive可以

进一步研究，我发现我需要使用Microsoft Hive odbc

你的数据在Azure中吗？据我所知，这是你使用微软驱动程序的唯一原因

想要一些关于实现我正在尝试做的事情的最佳方法的一些意见

这一点还不清楚。到目前为止，您已经提到了SQL工具，它不能通过ODBC访问...

如果您将数据存储在Hive中，JDBC/ODBC将工作得很好，但如果您决定在Hadoop中的YARN集群上运行它，Spark会更快。

我可以从

服务器上得到它，但我宁愿从Hadoop上拉它。

就我个人而言，我不建议您从Hadoop获得它

Hadoop (更准确地说，是HDFS)不是FTP
的替代品如果你的文件“足够小”可以很好地存储在FTP中，那么就没有理由将它们提取到HDFS中，因为HDFS针对处理相当大的文件进行了优化。
您是hadoop的新手，您建议您可以轻松地提取FTP文件。

第二个建议:如果您不想在Hadoop生态系统中使用某个工具，但不想显式使用HDFS，那么可以尝试一下提供GetFTP processor的项目。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46043491

复制

相似问题

问Hadoop数据提取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop数据提取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop数据提取
EN