首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Gensim中的BleiCorpus和关联新闻数据集: IO错误

Gensim中的BleiCorpus和关联新闻数据集: IO错误
EN

Stack Overflow用户
提问于 2014-10-01 16:20:48
回答 2查看 1.6K关注 0票数 1

我正在学习Python的“构建机器学习系统”一书中关于主题建模/潜在Dirichlet分配(LDA)的教程。

在这本书中,我并没有做得太过火,而主题建模的第一部分为我返回了错误:

代码语言:javascript
复制
from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt')

错误:

代码语言:javascript
复制
     63 
     64         self.fname = fname
---> 65         with utils.smart_open(fname_vocab) as fin:
     66             words = [utils.to_unicode(word).rstrip() for word in fin]
     67         self.id2word = dict(enumerate(words))

/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode)
    659         from gzip import GzipFile
    660         return make_closing(GzipFile)(fname, mode)
--> 661     return open(fname, mode)
    662 
    663 

IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt'

vocab.txt文件不存在,但是切换到它应该在的目录中,我发现如下:

$ ls download_ap.sh download_wp.sh预处理-wikidata.sh

看起来ap数据需要单独下载(书中没有提到),所以通过这样做:

代码语言:javascript
复制
sh download_ap.sh

我明白了:

代码语言:javascript
复制
download_ap.sh: line 2: wget: command not found
tar: Error opening archive: Failed to open 'ap.tgz'

有人知道如何解决这个问题吗?

谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-10-01 19:03:55

代码或开发环境没有任何问题。最有可能的问题是你没有钱。如果您想尝试使用CURL,也可以实现相同的功能。您也可以直接从其他来源(做谷歌搜索)下载美联社语料库,并将其放在Gensim用于本教程的目录中。

如果您想完全按照本书的方式学习教程,那么您可能需要安装wget,对于OS (我假设这是您的系统),需要进行一些配置。要将wget添加并安装到OS,您需要下载源文件、编译代码并进行安装。要实际编译代码,您需要一个编译器,不幸的是,默认情况下它并不随OS一起出现。首先,您需要从Apple安装xcode套件,其中包括GCC编译器。

这个帖子解释了如何一步一步地完成它。

希望这能行。

票数 2
EN

Stack Overflow用户

发布于 2014-10-01 18:08:31

您的计算机上没有安装wget,您使用的是Windows和Cygwin吗?从http://www.cs.princeton.edu/~blei/lda-c/ap.tgz下载该文件,将其解压并放在正确的文件夹中。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26145937

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档