我正在预处理文本数据。当我在做引语时,它会产生与词干完全相同的结果(文本没有变化)。我不明白这是怎么回事。
def stem_list(row):
my_list = row['no_stopwords']
stemmed_list = [stemming.stem(word) for word in my_list]
return stemmed_list
Japan['stemmed_words'] = Japan.apply(stem_list, axis=1)
def lemma_list(row):
my_list = row['stemmed_words']
lemmas_list = [lemma.lemmatize(word) for word in my_list]
return lemmas_list
Japan['lemma_words'] = Japan.apply(lemma_list, axis=1)下面是示例输出:
安全华为涉及英国批评网络足以缓解长期hcsec形式缓解风险aris涉及华为批判性国家基础设施治理委员会包括英国gchq网络安全代理及华为高级执行者英国远程办公
我的短信是新闻文章。我使用PorterStemmer进行词干处理,使用WordNetLemmatizer进行符号化。
提前谢谢你。
发布于 2019-10-31 04:07:34
你的文字在柠檬化过程中很可能不会改变的原因是,词干词往往不是真正的词,根本就没有引理。
这两个过程都试图将一个单词缩短为词根,但是词干词干严格,算法和柠檬化使用一个词汇表来查找一个单词的最小词根。通常,你会使用一个或另一个取决于你需要的速度。
然而,如果你只想看到这两个系列的结果,倒转你的过程-你应该得到的茎与你输入的引理不同。
https://stackoverflow.com/questions/58602394
复制相似问题