首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据矢量化

数据矢量化
EN

Stack Overflow用户
提问于 2016-04-23 01:19:45
回答 1查看 981关注 0票数 2

在试图将我的特性向量化时遇到了一个棘手的问题。我有这样一个特点:

  • 大多数都是数字,比如0,1,33.3,100等等。
  • 有些是空的,表示不提供。
  • 其中一些是“自动”,这意味着它可以适应上下文。

现在我的问题是,如何有效地将这个特性编码成向量?我能做的一件事就是把所有的数值都看作是绝对的,但是这会导致特征空间的爆炸,也不利于表示相似的数据点。我该怎么办?

谢谢!

--我使用的算法/模型--

它是LSTM (长时记忆)神经网络。目前,我采用以下方法,比如我有两个数据点:col1 entry1: 1.0 entry2: auto

它将被编码为:col1-a col1-b entry1: 1.0 0 entry2: dummy 1,所以col1-b将表示它是否是自动的。虚拟数字将是所有数字数据的中值。这个能行吗?

另外,对于每个数值,它们都有一个关联的单元,所以有另一个列,它的值类似于'px','pt',在这种情况下,如果我将该单元提取到另一列中,该数值是否仍然有意义?它们在关联时具有实际意义(数值+单位),但NN是否注意到如果它们在不同的维度上?

EN

回答 1

Stack Overflow用户

发布于 2016-04-25 21:23:50

这取决于您将使用的算法类型。如果您想使用类似关联规则分类的方法,那么您必须将所有变量作为分类数据来处理。如果您想使用逻辑回归,那么这是不需要的。你必须提供更多的细节才能得到更好的答案。

编辑我在读了你的编辑后做了一些编辑。

听起来你所拥有的至少是合理的。我读过一些书,人们使用均值/中值/模式来填充数字数据的缺失值。至于哪个最适合你,我不知道。你能试着用每个版本训练你的分类器吗?

至于"auto“列的问题,听起来您想做一些类似于运行有分类数据的回归的事情。我对神经网络没有太多的经验,但我知道如果你使用类似逻辑回归的方法,那么这就是你想要使用的方法。希望这能让你对你要研究的东西有个概念。

至于将所有的数字数据作为分类数据来处理,您也可以这样做,但您必须首先将其规范化。你可以做一些类似最小-最大归一化的事情,然后取数字的中间部分。现在,您的数据将与分类数据相同。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36805522

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档