我创造了一些蜂巢UDF。现在,我们正在考虑在hiveql中使用这些UDF来创建表。
创建tale { field1.
{ select udf1(),udf2(),.
美国广播公司的udfn()
现在,我们不确定这是否正确。因为根据我的理解,它将对每一行调用UDF,如果我的数据以百万为单位。我们可以使用集群的所有资源。
我的理解正确吗?或者不会出现任何性能问题,我们可以像我前面描述的那样使用它。
谢谢。
发布于 2014-01-23 12:49:51
我们在生产中使用多个UDF,它们可以在集群上每秒处理100's的K值。从某种意义上说,UDF变成了蜂箱的一部分:它们和蜂箱一样是java的,而随蜂箱一起运来的UDF被以同样的方式对待--例如,UDF()用于UDF或sum用于UDAF。
性能一直很好:放缓通常是(a)从hdfs加载数据,或者(b)在UDF中调优很差的java代码。
https://stackoverflow.com/questions/21101960
复制相似问题