首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >一个模型中的文本+标量特征

一个模型中的文本+标量特征
EN

Data Science用户
提问于 2018-04-29 11:56:28
回答 1查看 195关注 0票数 -2

我有一套功能,包括文本字段(3-10句)和大约10个标量字段。我需要预测另一个标量场(介于0到1之间)。在我的培训/验证数据中有这个字段。

这是我第一次接触文本功能。创建模型的正确方法是什么?

是否应该将文本字段作为嵌入,将其压缩为X大小的一维矩阵,并与其他特征相结合?

谢谢。

EN

回答 1

Data Science用户

发布于 2018-04-29 13:40:09

你的做法似乎很公平。创建一个文本特征的低维向量,或者如果您的文本语料库很小(比如注释),那么使用bag of words表示或基于tf-idf的单词打分(清理后),并将它们作为普通特征使用,方法是将它们与其他特征一起压平。

问题是,如果您使用word嵌入,并且当您想取消基于文本创建的模型的黑框时,它可能很难,因为word2vec中的每个单独的维度都没有任何意义。因此,从糟糕的词语开始,移到嵌入并查看度量标准。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/30999

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档