我正在尝试创建一个命中Hadoop的进程,并将数据提取到我本地的windows机器上。我成功地在ODBC上创建并能够测试连接。进一步研究后,我发现我需要使用Microsoft Hive odbc,并且我无法在连接上获得成功的测试。我对使用不同的工具持开放态度,但我想要一些关于实现我想要做的事情的最佳方式的意见。我正在寻找的数据也存在于ftp服务器上,并且已经加载到Hadoop上,我可以从ftp服务器上获取它,但我宁愿从Hadoop中提取它。我是一个全新的Hadoop新手,我已经研究和阅读过,但还没有找到解决方案。我知道解决方案就在那里,我只是没有找对地方,有人能给我指个正确的方向吗?
发布于 2017-09-05 09:54:27
点击Hadoop并将数据提取到我本地的windows机器上
第一个建议: Apache Spark
我在ODBC上成功创建了
,并能够测试连接
Hadoop不提供ODBC...Hive可以
进一步研究,我发现我需要使用Microsoft Hive odbc
你的数据在Azure中吗?据我所知,这是你使用微软驱动程序的唯一原因
想要一些关于实现我正在尝试做的事情的最佳方法的一些意见
这一点还不清楚。到目前为止,您已经提到了SQL工具,它不能通过ODBC访问...
如果您将数据存储在Hive中,JDBC/ODBC将工作得很好,但如果您决定在Hadoop中的YARN集群上运行它,Spark会更快。
我可以从
服务器上得到它,但我宁愿从Hadoop上拉它。
就我个人而言,我不建议您从Hadoop获得它
第二个建议:如果您不想在Hadoop生态系统中使用某个工具,但不想显式使用HDFS,那么可以尝试一下提供GetFTP processor的项目。
https://stackoverflow.com/questions/46043491
复制相似问题