我有一个Postgres数据库,用于生产服务器,需要定期使用Hadoop进行分析。在Hadoop中进行的每一个查询都应该基于Postges数据库中可能的最新版本。不同步是可以接受的,但只能延迟几分钟。
如何在Hadoop中进行近乎实时的数据分析?
发布于 2015-05-19 13:31:01
是的,它可以通过配置Hive的存储处理程序 API实现来实现。
Storage的概念只是将外部表元数据单独放在Hive转移中,而实际的数据存储系统将是外部数据源。其中,单元表元数据将包含具有通常列和格式详细信息的外部数据库表的详细信息。
每当您将数据写入使用存储处理程序配置的Hive表时,存储hanlder将将写入操作委托给配置好的外部数据库,以便将记录写入外部表。
同样,当您从配置有存储处理程序的Hive表中读取数据时,API将从外部表中获取实际记录。
似乎已经有了一个用于postgres数据库的Hive存储处理程序api实现,请参阅下面的url。
https://github.com/myui/HiveJdbcStorageHandler
希望这能帮到你..。
https://stackoverflow.com/questions/30316392
复制相似问题