是否有任何有效的方法来从一些现有的训练数据中生成新的训练数据。我问这个问题只是针对我的学习问题,而不是在一般的背景下。
我的学习问题是将6维加速度和陀螺仪数据(数据是从连接到用户手腕上的传感器获得的,而他/她试图在空中书写一些字符)到相应的字符A到Z。
我对每个字符只有10个样本数据,因此总共260个训练instances.For示例下面的图像与字符"F“的2个样本数据相关。


此外,我有许多样本数据,当用户不移动他的手并等待下一个字符写入时,但是由于手的自发和随机移动,我们仍然有一些数据模式,尽管与我的260训练数据相比,它们是平的,它们可以从一个用户到另一个用户不同,你可以在下图中看到它。

我们还可以说,每个训练样本数据是一个理想的手写字符运动+这些自发和随机的手部运动(类似噪音)的混合体。
我想知道是否有任何方法可以生成一些新的训练数据。也许我可以结合我当前的260训练和来自time用户的数据,而不是移动他的手来生成一些新的训练数据。也许有人会说,不需要生成新的训练数据,我可以简单地依靠每个字符的10个样本数据,然后使用例如k-NN算法来找到最近的邻居(我确实做到了,它看起来很有希望,例如,在下面的图像中,您可以看到使用DTW从我所有260个样本数据中的一个未见过的A字符计算出的距离),因此不需要额外的训练数据。

谢谢
发布于 2016-05-17 09:11:14
您当然可以生成新的数据点,但它不会向从原始数据集构建的模型添加任何有用的信息。解决这个问题的标准机器学习方法是提取一部分数据,比如80%,然后围绕它建立一个模型。剩下的20%将被省略,并将被用于交叉验证模型。剩余的样本数据将是模型预测真实行为的试金石。在某种意义上,遗漏的20%样本将表现为新数据,因为模型永远不会看到它。
发布于 2016-05-17 09:37:16
您喜欢做的是通过以下方式将小数据集概括为不可见的数据
1- adding noise to your data
2- regularising your data in your model
3- using dropouts as in neural network models which is some kind of regularization.
4- considering uncertainty by using some models like Gaussian processes.在我看来,如果你能够生成更多的数据,那就更好了,因为这不仅仅是每个样本都是另一个样本的噪声版本的情况,而且人们可能会做不同的事情。
我建议:
1- trying to generate more data yourself.
2- searching for accessible datasets online
3- in case there are some papers on the topic you can send a kind email and ask for their data.https://stackoverflow.com/questions/37265516
复制相似问题