在试图将我的特性向量化时遇到了一个棘手的问题。我有这样一个特点:
现在我的问题是,如何有效地将这个特性编码成向量?我能做的一件事就是把所有的数值都看作是绝对的,但是这会导致特征空间的爆炸,也不利于表示相似的数据点。我该怎么办?
谢谢!
--我使用的算法/模型--
它是LSTM (长时记忆)神经网络。目前,我采用以下方法,比如我有两个数据点:col1 entry1: 1.0 entry2: auto
它将被编码为:col1-a col1-b entry1: 1.0 0 entry2: dummy 1,所以col1-b将表示它是否是自动的。虚拟数字将是所有数字数据的中值。这个能行吗?
另外,对于每个数值,它们都有一个关联的单元,所以有另一个列,它的值类似于'px','pt',在这种情况下,如果我将该单元提取到另一列中,该数值是否仍然有意义?它们在关联时具有实际意义(数值+单位),但NN是否注意到如果它们在不同的维度上?
发布于 2016-04-25 21:23:50
这取决于您将使用的算法类型。如果您想使用类似关联规则分类的方法,那么您必须将所有变量作为分类数据来处理。如果您想使用逻辑回归,那么这是不需要的。你必须提供更多的细节才能得到更好的答案。
编辑我在读了你的编辑后做了一些编辑。
听起来你所拥有的至少是合理的。我读过一些书,人们使用均值/中值/模式来填充数字数据的缺失值。至于哪个最适合你,我不知道。你能试着用每个版本训练你的分类器吗?
至于"auto“列的问题,听起来您想做一些类似于运行有分类数据的回归的事情。我对神经网络没有太多的经验,但我知道如果你使用类似逻辑回归的方法,那么这就是你想要使用的方法。希望这能让你对你要研究的东西有个概念。
至于将所有的数字数据作为分类数据来处理,您也可以这样做,但您必须首先将其规范化。你可以做一些类似最小-最大归一化的事情,然后取数字的中间部分。现在,您的数据将与分类数据相同。
https://stackoverflow.com/questions/36805522
复制相似问题