假设您使用的是一个分布在一堆CSV文件上的大型数据集。打开一个IPython笔记本,探索一些东西,做一些转换,重新排序和清理数据。
然后开始对数据做一些实验,创建更多的笔记本,最后发现自己被一堆不同的笔记本堆起来,这些笔记本中埋有数据转换管道。
如何组织数据探索/转换/从it中学习的过程,以便:
发布于 2017-04-18 20:03:49
嗯,在处理大量数据时,我偶尔也会遇到这个问题。复杂性是我学会接受的东西,有时很难保持简单。
我认为帮助我很大程度上是将所有内容都放在一个GIT存储库中,如果您能够很好地管理它并经常使用编写良好的消息进行提交,那么您可以很容易地跟踪到数据的转换。
每次我做一些测试,我创建一个新的分支并做我的工作。如果没有结果的话,我就回到我的支部继续工作,但是如果我需要的话,我所做的工作仍然可以参考。
如果它带来了一些有用的东西,我只是将它合并到我的主分支,并继续进行新的测试,根据需要创建新的分支。
我不认为它回答了你所有的问题,也不知道你是否已经在笔记本中使用了某种版本控制,但这对我有很大帮助,我在使用jupyter笔记本时真的推荐它。
https://stackoverflow.com/questions/43478908
复制相似问题