文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习友好的数据组织

问机器学习友好的数据组织
EN

Stack Overflow用户

提问于 2017-10-27 20:17:06

回答 1查看 2.3K关注 0票数 2

网上有很多关于不同机器学习工具(神经网络和各种相关技术，如DL、ID树、SVMs)的教程。当我做小型机器学习时，在python或MATLAB或类似工具中，我通常有一个带有特性的CSV文件和一个带有标签的CSV文件，我将这些文件加载到内存中，然后按照程序的要求组织它们(例如。matlab的矩阵)。

我正在为一个系统的实时性能收集数据。每隔几分钟，我就收集大量的数据，目前我以Json格式(Key: value}等)存储数据。我通常收集这些数据，并将其存储一个小时，以查看我的系统运行情况。相反，我想做的是保留它，并尝试在它上做一些机器学习。我想知道为机器学习组织数据集的经验法则是什么，特别是因为我不确定我想要做什么样的ML (这是一个探索项目，因此我试图找出一种方法，使自己能够进行最多的探索)。

我读了这篇博客文章：https://www.altexsoft.com/blog/datascience/preparing-your-dataset-for-machine-learning-8-basic-techniques-that-make-your-data-better/

那些以纸质分类账开始数据收集，并以.xlsx和.csv文件结尾的公司，其数据准备工作可能比那些拥有小型但自豪的ML友好数据集的公司更困难。

它说.csv数据集对ML不友好。是否有一些方法可以保存被认为更适合ML的数据？

下面是我正在考虑的几个用例：

使用配以标签的时间点数据进行分类
使用时间序列(组织在一个矩阵中)与标签相结合的分类
回归:给定X的时间序列值矩阵的预测值

我没有想到什么特别的问题。相反，我想要开始设置这个数据集，使机器学习在未来。

我的问题是:更流行的存储数据的方法是什么，以支持机器学习？

一些备选方案：

按时间组织的CSV：

Time_stamp, feature1, feature2, feature3,...,featureN
Time_stamp, feature1, feature2, feature3,...,featureN
Time_stamp, feature1, feature2, feature3,...,featureN
...

和一些起始标签(以后可能会或不会增加)

Time_stamp, label1, label2....labelN
Time_stamp, label1, label2....labelN
Time_stamp, label1, label2....labelN

Json风格的键值对：

{
time_stamp: _,
feature1: _,
feature2: _,
...,
featureN:_,
label1:_,
label2:_,
label3:_,
...
}

假设我决定用时间序列来预测标签..。然后，我将不得不将时间序列数据全部放入标签的一个功能集中。

我知道解决这个问题的方法有很多种(一种是:忘记组织--只需编写一个API，当您找到要解决的问题时，为您的问题生成这个组织良好的数据集)，但实际上，我想知道设计用于工业和学术界机器学习的数据端基础设施的经验规则是什么。

出现的一些问题：

如果您想要添加一个新功能，怎么办？
如果你有一个新的标签呢？
如果你不想只考虑单点时间特征，而是在分析中使用时间序列特征呢？

我对数据库知之甚少，所以智慧是值得赞赏的，与功能存储相关的在线资源也是如此。我发现的大多数问题都与模型或ML基础结构有关，而不是我感兴趣的启用或数据组织部分。

feature-extraction

json

database

machine-learning

data-mining

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-10-28 01:56:27

对于我工作过的大多数机器学习库(tensorflow，keras，scikit- learning，R)，数据通常是以表格格式(如CSV)处理的，因为许多机器学习算法都是使用快速线性代数代码实现的。所以我不知道这篇文章是关于什么的，但是用CSV格式存储数据是可以的。

数据清理、组织和存储是一个重要的话题。您的数据清理管道(以及整个培训过程)应该是可复制的，本论文有一些很好的原则需要记住。本文作者是哈德利·韦翰对如何以表格格式组织数据有一些很好的想法。如果您的数据集很复杂，或者您将经常重用它，那么它可能值得存储在数据库中，我建议您阅读一本关于SQL和数据仓库的指南。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46982777

复制

相似问题

问机器学习友好的数据组织
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习友好的数据组织EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习友好的数据组织
EN