首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >查找OOV word的最相似的单词

查找OOV word的最相似的单词
EN

Stack Overflow用户
提问于 2020-05-22 18:29:01
回答 1查看 104关注 0票数 0

我正在寻找使用gensim的词外OOV单词最相似的单词。如下所示:

代码语言:javascript
复制
    def get_word_vec(self, model, word):
    try:
        if word not in model.wv.vocab:
            mostSimWord = model.wv.similar_by_word(word)
            print(mostSimWord)
        else:
            print( word )
    except Exception as ex:
        print(ex)

有没有办法完成这项任务?除了gensim之外的其他选择也很受欢迎。

EN

回答 1

Stack Overflow用户

发布于 2020-05-23 02:21:25

如果您训练的是FastText模型而不是Word2Vec模型,除了完整的单词之外,它还会固有地学习单词片段(可配置大小范围)的向量。

在像英语这样的语言中,许多其他语言(但不是所有语言)中的未知单词通常是打字错误、替代形式,或者与未知单词的词根和后缀相关。因此,拥有子词的向量,然后使用这些向量来总结未知单词的良好猜测向量,可以很好地工作,值得尝试-比忽略这些单词,或使用完全随机或原点向量更好。

没有内置的方法可以尝试从不是基于FastText/子词的现有词向量集中提取这样的关系-但从理论上讲这是可能的。您可以计算与所有已知单词的编辑距离或共享子词的计数,并通过加权组合N个最接近的单词来创建一个猜测向量。(这可能对拼写错误和罕见的替代拼写非常有效,但对于真正缺失的新词就不那么有效了。)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61952950

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档