首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop,硬件和生物信息学

Hadoop,硬件和生物信息学
EN

Stack Overflow用户
提问于 2011-02-18 18:59:33
回答 1查看 922关注 0票数 3

我们即将购买新的硬件来运行我们的分析,并想知道我们是否做出了正确的决定。

设置:

我们是一个生物信息学实验室,将处理DNA测序数据。我们这个领域最大的问题是数据量,而不是计算量。一个单一的实验很快就会进入到10S-100秒的Gb中,我们通常会同时运行不同的实验。显然,mapreduce方法很有趣(也请参阅http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html),但并不是所有的软件都使用这种模式。另外,一些软件使用ascii文件作为输入/输出,而其他软件则使用二进制文件。

我们可能要买的东西:

我们可能购买的机器是一台32核和192 to的服务器,连接到NAS存储器(>20 to)。对于我们的许多(非mapreduce)应用程序来说,这似乎是一个非常有趣的设置,但是这样的配置会阻止我们以有意义的方式实现hadoop/mapreduce/hdfs吗?

非常感谢,

简。

EN

回答 1

Stack Overflow用户

发布于 2011-02-19 06:40:04

你的配置很有趣。您使用的NAS存储的磁盘IO是什么?

您的决策基于以下几点:使用Map减少范式来解决处理大量数据的问题。基本上,RAM比磁盘存储器更昂贵。您不能保存RAM中的所有数据。磁盘存储允许您以更低的成本存储大量数据。但是,从磁盘读取数据的速度不是很快。地图减少如何解决这个问题?Map减少通过在多台机器上分配数据来解决这个问题。现在,您可以并行读取数据的速度要比使用单个存储磁盘时的速度要快。假设磁盘IO速度为100 Mbps。使用100台机器,您可以以100*100 Mbps =10 Mbps读取数据。

通常,处理器速度不是瓶颈。相反,磁盘IOs是处理大量数据时的最大瓶颈。

我觉得这可能不是很有效率。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5045412

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档