关于包图在文本特征工程中的应用,我有几个问题:
发布于 2022-04-11 11:23:02
我一起回答三个问题。嵌入获取令牌,即最小的有意义的文本片段,然后定义它。这意味着你可以称人物为最小的有意义的作品,单词、短语或任何你的创造力所允许的东西。Word2vec是基于单词的,所以如果您输入ngram作为标记,您将得到相同的特征空间,其中也会考虑到ngram。
如果嵌入,将自动处理弓特征空间的高维性(问题2),整个想法也是回答问题3(如果没有,请用精确的特征工程技术更新您的问题,我也会更新我的答案)。
免责声明:输出,无论如何直观地工作,可能在内部存在一些现象,您需要小心,例如嵌入算法分别看到“数据”和“科学”,并且在相同的上下文中尝试嵌入“数据科学”。它可能会减少语义映射。例如,在这种情况下,如果您不考虑ngram的单个标记,它将是完全好的,但您可能不想跳过两个语义强大的单词,如“数据”和“科学”。所以,小心点。
https://datascience.stackexchange.com/questions/109846
复制相似问题