文章/答案/技术大牛

发布

社区首页 >问答首页 >Hadoop，硬件和生物信息学

问Hadoop，硬件和生物信息学
EN

Stack Overflow用户

提问于 2011-02-18 18:59:33

回答 1查看 922关注 0票数 3

我们即将购买新的硬件来运行我们的分析，并想知道我们是否做出了正确的决定。

设置：

我们是一个生物信息学实验室，将处理DNA测序数据。我们这个领域最大的问题是数据量，而不是计算量。一个单一的实验很快就会进入到10S-100秒的Gb中，我们通常会同时运行不同的实验。显然，mapreduce方法很有趣(也请参阅http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html)，但并不是所有的软件都使用这种模式。另外，一些软件使用ascii文件作为输入/输出，而其他软件则使用二进制文件。

我们可能要买的东西：

我们可能购买的机器是一台32核和192 to的服务器，连接到NAS存储器(>20 to)。对于我们的许多(非mapreduce)应用程序来说，这似乎是一个非常有趣的设置，但是这样的配置会阻止我们以有意义的方式实现hadoop/mapreduce/hdfs吗？

非常感谢，

简。

hdfs

hadoop

mapreduce

回答 1

Stack Overflow用户

发布于 2011-02-19 06:40:04

你的配置很有趣。您使用的NAS存储的磁盘IO是什么？

您的决策基于以下几点:使用Map减少范式来解决处理大量数据的问题。基本上，RAM比磁盘存储器更昂贵。您不能保存RAM中的所有数据。磁盘存储允许您以更低的成本存储大量数据。但是，从磁盘读取数据的速度不是很快。地图减少如何解决这个问题？Map减少通过在多台机器上分配数据来解决这个问题。现在，您可以并行读取数据的速度要比使用单个存储磁盘时的速度要快。假设磁盘IO速度为100 Mbps。使用100台机器，您可以以100*100 Mbps =10 Mbps读取数据。

通常，处理器速度不是瓶颈。相反，磁盘IOs是处理大量数据时的最大瓶颈。

我觉得这可能不是很有效率。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5045412

复制

相似问题

问Hadoop，硬件和生物信息学
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop，硬件和生物信息学EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop，硬件和生物信息学
EN