文章/答案/技术大牛

发布

社区首页 >问答首页 >数据矢量化

问数据矢量化
EN

Stack Overflow用户

提问于 2016-04-23 01:19:45

回答 1查看 981关注 0票数 2

在试图将我的特性向量化时遇到了一个棘手的问题。我有这样一个特点：

大多数都是数字，比如0，1，33.3,100等等。
有些是空的，表示不提供。
其中一些是“自动”，这意味着它可以适应上下文。

现在我的问题是，如何有效地将这个特性编码成向量？我能做的一件事就是把所有的数值都看作是绝对的，但是这会导致特征空间的爆炸，也不利于表示相似的数据点。我该怎么办？

谢谢!

--我使用的算法/模型--

它是LSTM (长时记忆)神经网络。目前，我采用以下方法，比如我有两个数据点：col1 entry1: 1.0 entry2: auto

它将被编码为：col1-a col1-b entry1: 1.0 0 entry2: dummy 1，所以col1-b将表示它是否是自动的。虚拟数字将是所有数字数据的中值。这个能行吗？

另外，对于每个数值，它们都有一个关联的单元，所以有另一个列，它的值类似于'px'，'pt'，在这种情况下，如果我将该单元提取到另一列中，该数值是否仍然有意义？它们在关联时具有实际意义(数值+单位)，但NN是否注意到如果它们在不同的维度上？

machine-learning

vectorization

回答 1

Stack Overflow用户

发布于 2016-04-25 21:23:50

这取决于您将使用的算法类型。如果您想使用类似关联规则分类的方法，那么您必须将所有变量作为分类数据来处理。如果您想使用逻辑回归，那么这是不需要的。你必须提供更多的细节才能得到更好的答案。

编辑我在读了你的编辑后做了一些编辑。

听起来你所拥有的至少是合理的。我读过一些书，人们使用均值/中值/模式来填充数字数据的缺失值。至于哪个最适合你，我不知道。你能试着用每个版本训练你的分类器吗？

至于"auto“列的问题，听起来您想做一些类似于运行有分类数据的回归的事情。我对神经网络没有太多的经验，但我知道如果你使用类似逻辑回归的方法，那么这就是你想要使用的方法。希望这能让你对你要研究的东西有个概念。

至于将所有的数字数据作为分类数据来处理，您也可以这样做，但您必须首先将其规范化。你可以做一些类似最小-最大归一化的事情，然后取数字的中间部分。现在，您的数据将与分类数据相同。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36805522

复制

相似问题

问数据矢量化
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据矢量化EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据矢量化
EN