首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >WordNetLemmatizer在文本数据中没有符号化。

WordNetLemmatizer在文本数据中没有符号化。
EN

Stack Overflow用户
提问于 2019-10-29 06:32:42
回答 1查看 343关注 0票数 2

我正在预处理文本数据。当我在做引语时,它会产生与词干完全相同的结果(文本没有变化)。我不明白这是怎么回事。

代码语言:javascript
复制
def stem_list(row):
    my_list = row['no_stopwords']
    stemmed_list = [stemming.stem(word) for word in my_list]
    return stemmed_list


Japan['stemmed_words'] = Japan.apply(stem_list, axis=1)


def lemma_list(row):
    my_list = row['stemmed_words']
    lemmas_list = [lemma.lemmatize(word) for word in my_list]
    return lemmas_list


Japan['lemma_words'] = Japan.apply(lemma_list, axis=1)

下面是示例输出:

安全华为涉及英国批评网络足以缓解长期hcsec形式缓解风险aris涉及华为批判性国家基础设施治理委员会包括英国gchq网络安全代理及华为高级执行者英国远程办公

我的短信是新闻文章。我使用PorterStemmer进行词干处理,使用WordNetLemmatizer进行符号化。

提前谢谢你。

EN

回答 1

Stack Overflow用户

发布于 2019-10-31 04:07:34

你的文字在柠檬化过程中很可能不会改变的原因是,词干词往往不是真正的词,根本就没有引理。

这两个过程都试图将一个单词缩短为词根,但是词干词干严格,算法和柠檬化使用一个词汇表来查找一个单词的最小词根。通常,你会使用一个或另一个取决于你需要的速度。

然而,如果你只想看到这两个系列的结果,倒转你的过程-你应该得到的茎与你输入的引理不同。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58602394

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档