首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >纸袋图在文本特征工程中的应用

纸袋图在文本特征工程中的应用
EN

Data Science用户
提问于 2022-04-10 07:31:51
回答 1查看 27关注 0票数 1

关于包图在文本特征工程中的应用,我有几个问题:

  1. 如何(或我们可以?)在纸袋上执行word2vec?
  2. 当n克袋的特征空间随'N‘呈指数增长时,是什么(还是有?)是否经常与纸袋一起使用,以提高计算和存储效率?
  3. 或者,通常情况下,在将文本字段转换为文本特征字段时,n-gram包是否与其他功能工程技术一起使用?
EN

回答 1

Data Science用户

回答已采纳

发布于 2022-04-11 11:23:02

我一起回答三个问题。嵌入获取令牌,即最小的有意义的文本片段,然后定义它。这意味着你可以称人物为最小的有意义的作品,单词、短语或任何你的创造力所允许的东西。Word2vec是基于单词的,所以如果您输入ngram作为标记,您将得到相同的特征空间,其中也会考虑到ngram。

如果嵌入,将自动处理弓特征空间的高维性(问题2),整个想法也是回答问题3(如果没有,请用精确的特征工程技术更新您的问题,我也会更新我的答案)。

免责声明:输出,无论如何直观地工作,可能在内部存在一些现象,您需要小心,例如嵌入算法分别看到“数据”和“科学”,并且在相同的上下文中尝试嵌入“数据科学”。它可能会减少语义映射。例如,在这种情况下,如果您不考虑ngram的单个标记,它将是完全好的,但您可能不想跳过两个语义强大的单词,如“数据”和“科学”。所以,小心点。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/109846

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档