我们有如下的ORACLE存储过程:(psuedo代码)
CREATE STOREDPROCEDURE(参数)
开始
SELECT语句;
调用游标,然后插入到另一个表中;
调用其他存储过程;
结束;
我们有很多类似上面的存储过程。我们的数据增长了,而存储过程运行得很慢。我们希望将这些存储过程转换为HIVE或其他hadoop生态系统。请向我们推荐支持此场景的hadoop生态系统。
发布于 2015-03-19 16:37:59
答案实际上取决于整体情况:数据库中存储了什么,它是如何到达数据库的,存储过程在做什么,以及如何访问结果。我不认为你能够将这么大的问题转换成可以在stackoverflow上回答的格式。
为了回答这个特定的问题,您似乎是在使用存储过程进行ETL。在Hadoop中有许多等价物,其中最著名的是:简单的map-reduce、pig/hive脚本、spark。但是,它们不能处理数据库中的数据,因此您需要首先将数据放入Hadoop。
如果您正在使用游标和插入处理数据,这可能是您的过程运行缓慢的原因。您是否考虑过聘请一名顾问,他可以建议优化您的流程的方法,而无需在Hadoop上从头开始重写所有内容?
https://stackoverflow.com/questions/29135165
复制相似问题