我正在使用{text2vec}单词嵌入来构建与某个语义类别相关的相似术语的字典。
是否可以在语料库中合成一些标记,但不是全部?例如,我想计算类似于“未来一代”或“正在崛起的一代”的术语,但这些搭配在原始语料库中当然是作为单独的术语出现的。我想知道,如果gsub是“正在崛起的一代”--> "rising_generation",而没有将所有其他频繁出现的术语混合在一起,比如“气候变化”,这是不是一种糟糕的做法。
谢谢!
发布于 2020-10-05 12:08:48
是的,很好。它可能会也可能不会完全按照你想要的方式工作,但它值得一试。
您可能希望查看text2vec中的collocations代码,它可以自动检测和加入短语。如果你愿意,你当然可以在上面加入短语。在Gensim中,在Python中,我会使用Phrases代码来做同样的事情。
考虑到训练词向量通常不会花费太长时间,最好尝试不同的技术,看看哪种技术更适合你的目标。
https://stackoverflow.com/questions/64194322
复制相似问题