首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >找不到资源‘语料库/停用词’

找不到资源‘语料库/停用词’
EN

Stack Overflow用户
提问于 2017-08-02 16:52:13
回答 2查看 7.7K关注 0票数 1

我正在尝试从nltk.corpus导入停用词。我不能使用nltk.download(‘停用词’),因为我有代理问题。我在试着手动导入停用词。这就是我所做的。我从github.com下载了nltk_data,并使用nltk.data.path配置了适当的路径。但是当我尝试top运行这段代码时:

代码语言:javascript
复制
import nltk
from nltk.corpus import stopwords
print(stopwords.words('english'))

我得到一个类似这样的错误。

代码语言:javascript
复制
 >Resource 'corpora/stopwords' not found.  Please use the NLTK
 >Downloader to obtain the resource:  >>> nltk.download()
 >Searched in:
 -'C:\\Program Files\\Anaconda3\\Lib\nltk_data'

我所有的nltk数据都在上面的路径中,而且语料库文件夹中也有停用词。正如我上面所说的,我不能使用nltk.download()。我是不是漏掉了什么?

更新1

我重置了所有spyder设置,并再次运行此代码:

代码语言:javascript
复制
    import nltk
    from nltk.corpus import stopwords
    print(stopwords.words('english'))

我得到一个错误,如:

代码语言:javascript
复制
LookupError: 
**********************************************************************
  Resource 'corpora/stopwords' not found.  Please use the NLTK
  Downloader to obtain the resource:  >>> nltk.download()
  Searched in:
    - 'C:\\Users\\586594/nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'C:\\Program Files\\Anaconda3\\nltk_data'
    - 'C:\\Program Files\\Anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\586594\\AppData\\Roaming\\nltk_data'
**********************************************************************

我所有的nltk数据都在"C:\Program Files\Anaconda3\nltk_data“中,语料库目录中有停用词。

EN

回答 2

Stack Overflow用户

发布于 2019-04-15 20:28:43

我通过导入nltk并从其中下载“stopword”修复了它。

import nltk nltk.download('stopwords')

票数 5
EN

Stack Overflow用户

发布于 2017-08-02 20:29:47

您使用Python命令设置了nltk_data路径,不是吗?仔细查看错误消息中的路径:

-'C:\\Program Files\\Anaconda3\\Lib\nltk_data'

路径组件之间的反斜杠是双倍的,除了最后一个;你的路径中有一个文字换行符。为了避免这样的意外,当你写路径时,总是使用原始字符串。例如。

代码语言:javascript
复制
nltk.data.path.append(r"C:\Program Files\Anaconda3\Lib\nltk_data")
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45455993

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档