使用git,我管理python脚本(script.py)的更改和一组测试,该测试使用一些文本输入数据文件,目录结构如下
script.py
tests/
test_01.py
test_02.py
data/
data_file01
data_file02
...但是,一些输入数据文件开始变得非常大(> 1MB)。
使用git,管理测试输入数据的最佳实践是什么?
..。也许允许在线存储,但是,如何保存和检查对输入数据文件的更改?(建议?)
..。或者可以使用像setuptools这样的库来检查是否不存在输入数据测试和下载,但是,如何保存和检查对输入数据文件的更改?
编辑
现在,我使用云硬盘(dropbox、google驱动器等)中相应的提交名称在压缩文件中备份数据测试,并在post-commit钩子中使用一行
commit_name=$(git rev-parse HEAD)
fecha=$(date +%Y%m%d)
7z a $CLOUD_DISK"/data_test/$fecha"_"$commit_name".7z data/* -r(我更喜欢7z而不是zip,因为我得到的是较小的压缩文件)
在.bashrc中定义了$CLOUD_DISK变量。
编辑2
我开始以一种更完整的方式来解决我的问题。
发布于 2014-02-21 07:04:43
我会把数据保存在你的仓库里。您的权利,您需要跟踪输入数据的变化,以防它们带来的问题。否则,也许可以创建一个类似于校验和的数据散列?
https://stackoverflow.com/questions/21918472
复制相似问题