首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >科学数据存储:多个小文件,一个卷还是多个?

科学数据存储:多个小文件,一个卷还是多个?
EN

Server Fault用户
提问于 2012-01-05 20:11:03
回答 2查看 794关注 0票数 1

我有价值约8 TB的“样本”数据,其特点如下:

每个示例:5-15GB在一个文件夹中包含~20k文件和~10k子文件夹(2000顶级,5个子级别,包含一个~5.2MB的数据文件和小设置文件)。

我正在设置一个戴尔T710服务器运行Windows 2008 R2与19 TB有效空间(RAID5),以巩固数据。我以前在一个专用的内部驱动器(NTFS)上打开/浏览/复制大约1.5TB的这类数据时,我看到了明显的减速。

每个示例都将复制到此服务器进行存储,但分析将发生在其他地方(从服务器复制数据)。因此,现有数据没有每天的变化,只有新的数据。

处理这类数据的最佳驱动器配置是什么?驱动器是GPT,目前拥有EFI、MSR、70 GB系统分区和空19 TB数据分区。

  • 一个19 TB的大容量
  • 几个较小的卷(较少的碎片?)

是否应该创建一个按样本压缩的归档文件并将其存储起来?我会对此犹豫不决,因为用户能直观地理解文件夹,而损坏对档案的影响更坏--在极端情况下,我们可以负担一些损坏的子文件夹(样例‘像素’,或多或少),但是破坏整个示例存档将是不好的。

EN

回答 2

Server Fault用户

回答已采纳

发布于 2012-01-05 20:31:36

19 in在一个单一的RAID-5卷是非常大的。您没有提到在这个卷中有多少磁盘,但是,在戴尔的T710中,我认为很可能每个磁盘有超过1TB的磁盘。我对RAID很生气--5名成员都这么大。如果那是一次5次突袭,那我就更害怕了。(我不喜欢跨度大于5或6个磁盘,尤其是磁盘那么大。)

撇开RAID-5的选择不谈,根据我的经验,这是一个相当多的文件要要求NTFS处理。任何可以减少存储的文件数量的操作都将有助于性能的提高。如您所描述的那样,压缩“示例”将从根本上减少您要求NTFS处理的文件数量。根据您的数据压缩效果,您还可以看到通过网络传输文件的性能显著提高。

在我看来,你不应该担心数据的“腐败”。如果您没有足够的信心,您的备份系统和主存储将工作w/o腐蚀文件,那么您应该集中精力加强这些“基础”组件。RAID-10或RAID-50将是增强主存储器的第一步。既然你不谈你是怎么做后援的,我就不能这么说了。

编辑:

我很担心RAID-5的可用性。关于这一点的开创性文章是为什么RAID 5在2009年停止工作。要点是大磁盘上的误码率使得大RAID-5卷的重建在统计上是不可能的。

如果您有另一个副本的数据在场外,那么这可能是较少的关注。您应该考虑一下RAID-5卷的完全丢失的分支是什么。您是否能够在从外部复制数据的同时,旋转一个新的卷并继续工作?在重新开始工作之前,您需要等待一定数量的数据复制吗?如果有空闲时间,费用是多少?

票数 4
EN

Server Fault用户

发布于 2012-01-05 22:39:52

如果有许多小文件,就会丢失磁盘空间。原因是文件系统的块大小。我的第一个建议是使用Linux系统进行长期支持。我的第二个建议是在不压缩文件系统的情况下保存文件,因为了解系统更重要的是丢失一些字节。我的基因组数据(猎枪分析仪)也有同样的问题。我的第三个建议是使用RAID10或RAID50。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/347091

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档