网上有很多关于不同机器学习工具(神经网络和各种相关技术,如DL、ID树、SVMs)的教程。当我做小型机器学习时,在python或MATLAB或类似工具中,我通常有一个带有特性的CSV文件和一个带有标签的CSV文件,我将这些文件加载到内存中,然后按照程序的要求组织它们(例如。matlab的矩阵)。
我正在为一个系统的实时性能收集数据。每隔几分钟,我就收集大量的数据,目前我以Json格式(Key: value}等)存储数据。我通常收集这些数据,并将其存储一个小时,以查看我的系统运行情况。相反,我想做的是保留它,并尝试在它上做一些机器学习。我想知道为机器学习组织数据集的经验法则是什么,特别是因为我不确定我想要做什么样的ML (这是一个探索项目,因此我试图找出一种方法,使自己能够进行最多的探索)。
那些以纸质分类账开始数据收集,并以.xlsx和.csv文件结尾的公司,其数据准备工作可能比那些拥有小型但自豪的ML友好数据集的公司更困难。
它说.csv数据集对ML不友好。是否有一些方法可以保存被认为更适合ML的数据?
下面是我正在考虑的几个用例:
我没有想到什么特别的问题。相反,我想要开始设置这个数据集,使机器学习在未来。
我的问题是:更流行的存储数据的方法是什么,以支持机器学习?
一些备选方案:
按时间组织的CSV:
Time_stamp, feature1, feature2, feature3,...,featureN
Time_stamp, feature1, feature2, feature3,...,featureN
Time_stamp, feature1, feature2, feature3,...,featureN
...和一些起始标签(以后可能会或不会增加)
Time_stamp, label1, label2....labelN
Time_stamp, label1, label2....labelN
Time_stamp, label1, label2....labelNJson风格的键值对:
{
time_stamp: _,
feature1: _,
feature2: _,
...,
featureN:_,
label1:_,
label2:_,
label3:_,
...
}假设我决定用时间序列来预测标签..。然后,我将不得不将时间序列数据全部放入标签的一个功能集中。
我知道解决这个问题的方法有很多种(一种是:忘记组织--只需编写一个API,当您找到要解决的问题时,为您的问题生成这个组织良好的数据集),但实际上,我想知道设计用于工业和学术界机器学习的数据端基础设施的经验规则是什么。
出现的一些问题:
我对数据库知之甚少,所以智慧是值得赞赏的,与功能存储相关的在线资源也是如此。我发现的大多数问题都与模型或ML基础结构有关,而不是我感兴趣的启用或数据组织部分。
发布于 2017-10-28 01:56:27
对于我工作过的大多数机器学习库(tensorflow,keras,scikit- learning,R),数据通常是以表格格式(如CSV)处理的,因为许多机器学习算法都是使用快速线性代数代码实现的。所以我不知道这篇文章是关于什么的,但是用CSV格式存储数据是可以的。
数据清理、组织和存储是一个重要的话题。您的数据清理管道(以及整个培训过程)应该是可复制的,本论文有一些很好的原则需要记住。本文作者是哈德利·韦翰对如何以表格格式组织数据有一些很好的想法。如果您的数据集很复杂,或者您将经常重用它,那么它可能值得存储在数据库中,我建议您阅读一本关于SQL和数据仓库的指南。
https://stackoverflow.com/questions/46982777
复制相似问题