问Python Snowball Stemmer + RAKE:生成'u's
EN

Stack Overflow用户

提问于 2017-02-14 19:57:18

回答 1查看 273关注 0票数 2

我试图从包含文本的文本文件中获取关键字，并且首先对文本进行词干分析。下面的代码可以工作，但由于某些原因，它会在关键字列表的前面生成字母“u”。例如，我得到的是：

[(u'keyword1', 5), (u'keyword2', 4)]

我不知道“u”是从哪里来的。下面是代码(在导入包之后)：

stemmer = SnowballStemmer("english")
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4)
s = open("test.txt", "r").read()
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming
words = s.split()
stemmed = [stemmer.stem(word) for word in words]
stemmed = ' '.join(stemmed)
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text
print(keywords)

python

rake

stemming

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-02-14 20:06:06

这意味着它是Unicode字符串，词干分析器返回这种类型的字符串。在Pythons2.x中，它是从2.0开始的语法。要获取更多信息，请阅读documentation。不必为那事担心了。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42225576

复制

相似问题

问Python Snowball Stemmer + RAKE:生成'u's
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python Snowball Stemmer + RAKE:生成'u'sEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python Snowball Stemmer + RAKE:生成'u's
EN