我是一个PhD的地球物理学生,工作与大量的图像数据(数百GB,数万个文件)。我对svn和git相当了解,并开始重视项目历史,并能够轻松地协同工作,并具有防止磁盘损坏的能力。我发现git对于保持一致的备份也非常有用,但我知道git不能有效地处理大量二进制数据。
在我的硕士研究中,我研究了类似大小的数据集(也包括图像),并在不同的服务器/设备上跟踪不同版本的数据时遇到了很多问题。Diffing 100 of的网络真的不好玩,我花了很多时间和精力。
我知道科学上的其他人似乎也有类似的问题,但我找不到一个好的解决办法。
我想使用我的研究所的存储设施,所以我需要一些东西,可以使用“哑巴”服务器。我还希望在便携式硬盘上有一个额外的备份,因为我希望尽可能避免通过网络传输数百GB。因此,我需要一个能够处理多个远程位置的工具。
最后,我真的需要一些其他研究者可以使用的东西,所以它不需要非常简单,而应该在几个小时内就可以学到。
我评估了许多不同的解决方案,但似乎没有一个方案符合要求:
我尝试过git-annex,它完成了我需要它做的所有事情(还有更多的事情),但是它很难使用,而且没有很好的文档。我已经用了好几天了,没办法把它弄清楚,所以我怀疑其他同事会不会有兴趣。
研究人员如何处理大型数据集,以及其他研究小组正在使用什么?
明确地说,我主要感兴趣的是其他研究人员如何处理这种情况,而不仅仅是这个特定的数据集。在我看来,几乎每个人都应该有这个问题,但我不知道有谁解决了这个问题。我应该只保留原始数据的备份,而忘记所有这些版本控制的东西吗?其他人就是这么做的吗?
发布于 2015-08-12 09:56:15
我最后使用的是一种混合解决方案:
我相信,要对大量二进制数据进行全面修订,是很不明智的,因为审查这些变化所需的时间最终将是如此之长,以致于从长远来看是不会有回报的。也许半自动快照过程(最终通过在不同快照之间复制未更改的数据来节省一些磁盘空间)会有所帮助。
发布于 2015-04-08 19:21:29
发布于 2015-02-13 13:38:56
我处理过非常大的合成生物学数据集的类似问题,在这些数据集中,我们有许多,很多GB的流式细胞术数据,分布在许多、数千个文件中,并且需要在(多个)不同机构的协作小组之间保持它们的一致性。
像svn和git这样的典型版本控制在这种情况下并不实用,因为它不是为这种类型的数据集设计的。相反,我们转而使用“云存储”解决方案,特别是DropBox和Bittorrent同步。DropBox的优点是它至少可以进行一些原始日志记录和版本控制,并为您管理服务器,但是它是一项商业服务的缺点是,您必须为大型存储支付费用,并且您将未发布的数据放在商业存储上;不过,您不需要支付很多费用,所以这是一个可行的选择。Bittorrent Sync有一个非常类似的接口,但是您自己在自己的存储服务器上运行它,它没有任何版本控制。这两种方法都伤害了我的程序员的灵魂,但它们是我和我的合作者找到的最好的解决方案。
https://datascience.stackexchange.com/questions/5178
复制相似问题