我目前有很多数据将用于训练预测神经网络(美国主要机场的千兆字节天气数据)。我几乎每天都有数据,但一些机场的数据中缺少值。例如,在1995年之前可能不存在机场,因此在此之前我没有该特定位置的数据。此外,一些人错过了整整一年(可能是从1990年到2011年,错过了2003年)。
如何才能在不误导神经网络的情况下使用这些缺失值进行训练?我想用0或-1填充空数据,但我觉得这会导致网络预测某些输出的这些值。
发布于 2011-05-23 04:53:56
我不是专家,但这肯定取决于你的神经网络类型?
神经网络的全部意义在于它们可以处理丢失的信息等等。
但我同意,用1和0设置空数据不是一件好事。
也许你可以提供一些关于你的神经网络的信息?
发布于 2011-05-24 14:47:09
我使用了很多神经网络进行预测,我可以告诉你,你可以简单地在你的数据中留下“空洞”。事实上,神经网络能够学习观察数据中的关系,所以如果你没有特定的周期,它不会matter...if你设置空数据作为一个常量值,你会给你的训练算法误导性的信息。NNs不需要“连续”的数据,事实上,在训练之前打乱数据集是一个很好的做法,以便对不连续的样本进行反向传播阶段……
发布于 2015-12-29 04:47:59
有一种叫做的神经网络适合你的工作。自动编码器可用于重建输入。自动编码器被训练来学习底层数据流形/分布。然而,它们主要用于信号重建任务,如图像和声音。但是,您可以使用它们来填充缺少的功能。
还有另一种技术,称为"matrix-factorization“,在许多推荐系统中使用。人们使用矩阵分解技术用大量的缺失值填充巨大的矩阵。例如,假设IMDb上有100万部电影。在她的一生中,几乎没有人看过这些电影的十分之一。但她已经为一些电影投了票。矩阵是N by M,其中N是用户数,M是电影数。矩阵分解是用于填充缺失值并基于用户对其他电影的先前投票向用户推荐电影的技术之一。
https://stackoverflow.com/questions/6090674
复制相似问题