train_data = ["Consultant, changing, Waiting"]我试图用下面的代码将词干分析器应用于数据,但它保留了原始数据:
stemmer = stem.porter.PorterStemmer()
train_data = train_stemmer
for i in range(len(train_stemmer)):
train_stemmer[i] = stemmer.stem(train_stemmer[i])代码运行良好,但没有产生预期的结果,即:
["Consult, change, Wait"]发布于 2021-04-12 22:21:43
有两件事可以跳出来:
问题中的
train_data是包含一个字符串["Consult, change, Wait"]的列表,而不是由三个字符串["Consult", "change", "Wait"]列表。
如果您想让列表包含一个字符串,这应该很好:
from nltk.stem import porter
stemmer = porter.PorterStemmer()
# List of one string
string_in_list = ["Consult, change, Wait"]
for word in string_in_list:
print(stemmer.stem(word))
print("----")如果您想要一个包含三个字符串的列表,那么修改以包括逗号之间的引号:
# List of three strings
individual_words = ["Consult", "change", "Wait"]
for word in individual_words:
print(stemmer.stem(word))
print("----")在单词开头处理大小写需要传递一个参数,但如果要处理专有名词(例如,区分词干change和名称Chang),则可能有意义。
# Stem but do not convert first character to lowercase
for word in individual_words:
print(stemmer.stem(word, to_lowercase=False))所有三个运行时的预期输出:
consult, change, wait
----
consult
chang
wait
----
Consult
chang
Waithttps://stackoverflow.com/questions/67066233
复制相似问题