过去,为了解决一个问题,尝试不同的机器学习算法时,我常常在笔记本上写一套方法,包括特征、特征预处理、归一化、算法、算法参数等细节。因此,建立一个手写的日志。
然而,目前我关心的是使用“更专业”的工具,这样我就可以保留更多的细节,甚至与其他团队成员分享,他们也可以在他们的方法上签名。
这将是一个伟大的自动化和协作工具,跟踪完成的工作,考虑细节,如:特性,算法,算法参数,数据预处理,数据,度量.例如,除了协作的Google电子表格之外。
你怎么解决这个问题的?你是如何跟踪完成的工作的?你的日志工具是什么?
先谢谢你。
发布于 2016-04-11 11:11:56
你怎么解决这个问题的?你是如何跟踪完成的工作的?你的日志工具是什么?
这可能不是最好的办法。但是我的团队就是这样做的。我们认为,为了完成端到端的数据科学实验,正确的良心是非常重要的。因此,我们使用松懈进行同样的讨论和会议。
此外,我们有Rmd (R标记)文件,用于记录计划和分析部分。
发布于 2016-04-11 11:39:47
看看这,看起来就像你所需要的
发布于 2016-04-11 20:03:53
你怎么解决这个问题的?你是如何跟踪完成的工作的?你的日志工具是什么?
对于我的单身汉论文 (write-math.com),我编写了自己的小工具箱,以非常快地完成不同的模型/预处理步骤。每个实验都有一个配置文件(参见实验储存库)。例如:
data-source: feature-files/baseline-3-points
training: '{{nntoolkit}} train --epochs 1000 --learning-rate 0.1 --momentum 0.1 --print-errors --hook=''!detl
test {{testing}},err=testresult_%e.txt'' {{training}} {{validation}}
{{testing}} < {{src_model}} > {{target_model}} 2>> {{target_model}}.log'
model:
type: mlp
topology: 24:500:369对经过训练的模型进行存储,得到评价结果(例如准确性、混淆矩阵)是相当快的。
https://datascience.stackexchange.com/questions/11136
复制相似问题