我正在尝试设计一个基于UIMA的分布式可伸缩管道。我应该如何决定在Hadoop上使用UIMA、DUCC还是UIMA?如果我把它构建在UIMA DUCC而不是Hadoop或者反之亦然,那么我会错过什么呢?
发布于 2015-04-28 22:05:25
一个维度是应用特性。Hadoop对于I/O密集型应用程序将有很大的优势。对于需要在不同线程中运行多个管道副本以实现高CPU利用率的大型内存应用程序,DUCC应该具有很大的优势。
另一个维度是利用UIMA而不是利用Hadoop。DUCC基于基本的UIMA功能,提供许多扩展选项、内置的性能度量和调试支持,所有这些都基于核心UIMA组件。UIMA管道越复杂,DUCC的优势就越大;例如,复杂的处理流可以直接在DUCC中实现,但可能需要转换成map-reduce。
对于那些拥有足够的Hadoop专业知识的人来说,一个相对简单的UIMA分析可以很容易地集成到现有的Hadoop商店中,而不必了解很多关于UIMA的知识。
发布于 2015-04-27 07:25:50
https://stackoverflow.com/questions/29873686
复制相似问题