问一个模型中的文本+标量特征
EN

Data Science用户

提问于 2018-04-29 11:56:28

回答 1查看 195关注 0票数 -2

我有一套功能，包括文本字段(3-10句)和大约10个标量字段。我需要预测另一个标量场(介于0到1之间)。在我的培训/验证数据中有这个字段。

这是我第一次接触文本功能。创建模型的正确方法是什么？

是否应该将文本字段作为嵌入，将其压缩为X大小的一维矩阵，并与其他特征相结合？

谢谢。

发布于 2018-04-29 13:40:09

你的做法似乎很公平。创建一个文本特征的低维向量，或者如果您的文本语料库很小(比如注释)，那么使用bag of words表示或基于tf-idf的单词打分(清理后)，并将它们作为普通特征使用，方法是将它们与其他特征一起压平。

问题是，如果您使用word嵌入，并且当您想取消基于文本创建的模型的黑框时，它可能很难，因为word2vec中的每个单独的维度都没有任何意义。因此，从糟糕的词语开始，移到嵌入并查看度量标准。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/30999

复制

相似问题

问一个模型中的文本+标量特征EN