我在浏览与HIPI image processing API for Hadoop相关的文章,网址是:http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf
在解释其中的协方差示例时,论文说:“因为HIPI为每个map任务分配一个图像,所以随机采样100个补丁的图像并执行此计算是很简单的”。
但本文中显示的第一个图描述了一个架构,其中多个图像被输入到一个map任务!
令人惊讶的是,他们写道,一个图像由一个map任务处理,因为这将产生太多的map任务,因为他们还在解决小文件问题。
如果这是真的,那么使用MultithreadedMapper的序列文件是更好的选择,我是对的还是错的?
提前谢谢..
发布于 2012-05-17 09:16:59
虽然我无法解释作者在论文中所说的话,但查看HIPI的应用编程接口,我只能看到一个InputFormat:
这适用于ImageBundle,正如它听起来的那样--单个文件中的图像集合(捆绑)。
我猜作者可能想说的是:
因为HIPI为每个地图函数分配一个图像,所以随机采样100个面片的图像并执行此计算非常简单
查看相关Covariance example的代码支持这一理论。
https://stackoverflow.com/questions/9836647
复制相似问题