文章/答案/技术大牛

发布

社区首页 >问答首页 >text2vec单词嵌入:复合一些标记，但不是全部

问text2vec单词嵌入:复合一些标记，但不是全部
EN

Stack Overflow用户

提问于 2020-10-04 19:59:18

回答 1查看 55关注 0票数 1

我正在使用{text2vec}单词嵌入来构建与某个语义类别相关的相似术语的字典。

是否可以在语料库中合成一些标记，但不是全部？例如，我想计算类似于“未来一代”或“正在崛起的一代”的术语，但这些搭配在原始语料库中当然是作为单独的术语出现的。我想知道，如果gsub是“正在崛起的一代”--> "rising_generation"，而没有将所有其他频繁出现的术语混合在一起，比如“气候变化”，这是不是一种糟糕的做法。

谢谢!

nlp

tokenize

word-embedding

text2vec

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-05 12:08:48

是的，很好。它可能会也可能不会完全按照你想要的方式工作，但它值得一试。

您可能希望查看text2vec中的collocations代码，它可以自动检测和加入短语。如果你愿意，你当然可以在上面加入短语。在Gensim中，在Python中，我会使用Phrases代码来做同样的事情。

考虑到训练词向量通常不会花费太长时间，最好尝试不同的技术，看看哪种技术更适合你的目标。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64194322

复制

相似问题

问text2vec单词嵌入:复合一些标记，但不是全部
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问text2vec单词嵌入:复合一些标记，但不是全部EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问text2vec单词嵌入:复合一些标记，但不是全部
EN