首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python word_tokenize

Python word_tokenize
EN

Stack Overflow用户
提问于 2015-01-03 20:52:29
回答 1查看 14.3K关注 0票数 2

我对蟒蛇很陌生。我在找我短信的频率分布。这是密码,

代码语言:javascript
复制
import nltk
nltk.download()
import os
os.getcwd()
text_file=open(r"ecelebi\1.txt","r")
p = text_file.read()
words = nltk.tokenize.word_tokenize(p)
fdist= FreqDist(words)
print(fdist)

问题是程序没有给出任何错误或解决方案。它只是把这个还给你

代码语言:javascript
复制
>>> ================================ RESTART ================================
>>> 
showing info http://nltk.github.com/nltk_data/

我认为问题在于word_tokenize()。如果你能帮忙,我会很感激的。谢谢。

EN

回答 1

Stack Overflow用户

发布于 2015-01-03 21:01:13

您的问题是,您试图在脚本中运行nltk.download(),而GUI却隐藏在页面后面的某个地方。

通常,nltk.download()通常在Python解释器中运行,它允许您下载各种数据集和corpuse (corpii :P),以便与nltk一起使用。您通常只需要这样做一次,只有再次使用它,如果你想更新你的身体。--您不必每次运行脚本时都运行它。

假设您已经在Python解释器中运行了nltk.download(),那么您将获得某种形式的GUI,或者如果您无法访问GUI(例如,如果您在没有X转发的情况下运行SSHd ),那么它将是一个命令行界面。您可以使用这个下载数据。我建议你全部下载,除非你需要空间。

一旦您运行了nltk.download()并下载了您认为需要的所有内容,那么下面的代码就可以工作了。

代码语言:javascript
复制
import nltk
import os

os.getcwd()
text_file=open(r"ecelebi\1.txt","r")

p = text_file.read()
words = nltk.tokenize.word_tokenize(p)

fdist= nltk.FreqDist(words)
print(fdist)

注意,命令是nltk.FreqDist__,而不是FreqDist__,因为函数位于nltk命名空间中。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27759418

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档