文章/答案/技术大牛

发布

社区首页 >问答首页 >WordNetLemmatizer在文本数据中没有符号化。

问WordNetLemmatizer在文本数据中没有符号化。
EN

Stack Overflow用户

提问于 2019-10-29 06:32:42

回答 1查看 343关注 0票数 2

我正在预处理文本数据。当我在做引语时，它会产生与词干完全相同的结果(文本没有变化)。我不明白这是怎么回事。

def stem_list(row):
    my_list = row['no_stopwords']
    stemmed_list = [stemming.stem(word) for word in my_list]
    return stemmed_list


Japan['stemmed_words'] = Japan.apply(stem_list, axis=1)


def lemma_list(row):
    my_list = row['stemmed_words']
    lemmas_list = [lemma.lemmatize(word) for word in my_list]
    return lemmas_list


Japan['lemma_words'] = Japan.apply(lemma_list, axis=1)

下面是示例输出：

安全华为涉及英国批评网络足以缓解长期hcsec形式缓解风险aris涉及华为批判性国家基础设施治理委员会包括英国gchq网络安全代理及华为高级执行者英国远程办公

我的短信是新闻文章。我使用PorterStemmer进行词干处理，使用WordNetLemmatizer进行符号化。

提前谢谢你。

lemmatization

nltk

python-3.7

回答 1

Stack Overflow用户

发布于 2019-10-31 04:07:34

你的文字在柠檬化过程中很可能不会改变的原因是，词干词往往不是真正的词，根本就没有引理。

这两个过程都试图将一个单词缩短为词根，但是词干词干严格，算法和柠檬化使用一个词汇表来查找一个单词的最小词根。通常，你会使用一个或另一个取决于你需要的速度。

然而，如果你只想看到这两个系列的结果，倒转你的过程-你应该得到的茎与你输入的引理不同。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58602394

复制

相似问题

问WordNetLemmatizer在文本数据中没有符号化。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问WordNetLemmatizer在文本数据中没有符号化。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问WordNetLemmatizer在文本数据中没有符号化。
EN