文章/答案/技术大牛

发布

社区首页 >问答首页 >Gensim中的BleiCorpus和关联新闻数据集: IO错误

问Gensim中的BleiCorpus和关联新闻数据集: IO错误
EN

Stack Overflow用户

提问于 2014-10-01 16:20:48

回答 2查看 1.6K关注 0票数 1

我正在学习Python的“构建机器学习系统”一书中关于主题建模/潜在Dirichlet分配(LDA)的教程。

在这本书中，我并没有做得太过火，而主题建模的第一部分为我返回了错误：

from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt')

错误：

     63 
     64         self.fname = fname
---> 65         with utils.smart_open(fname_vocab) as fin:
     66             words = [utils.to_unicode(word).rstrip() for word in fin]
     67         self.id2word = dict(enumerate(words))

/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode)
    659         from gzip import GzipFile
    660         return make_closing(GzipFile)(fname, mode)
--> 661     return open(fname, mode)
    662 
    663 

IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt'

vocab.txt文件不存在，但是切换到它应该在的目录中，我发现如下：

$ ls download_ap.sh download_wp.sh预处理-wikidata.sh

看起来ap数据需要单独下载(书中没有提到)，所以通过这样做：

sh download_ap.sh

我明白了：

download_ap.sh: line 2: wget: command not found
tar: Error opening archive: Failed to open 'ap.tgz'

有人知道如何解决这个问题吗？

谢谢

gensim

python

enthought

lda

topic-modeling

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-10-01 19:03:55

代码或开发环境没有任何问题。最有可能的问题是你没有钱。如果您想尝试使用CURL，也可以实现相同的功能。您也可以直接从其他来源(做谷歌搜索)下载美联社语料库，并将其放在Gensim用于本教程的目录中。

如果您想完全按照本书的方式学习教程，那么您可能需要安装wget，对于OS (我假设这是您的系统)，需要进行一些配置。要将wget添加并安装到OS，您需要下载源文件、编译代码并进行安装。要实际编译代码，您需要一个编译器，不幸的是，默认情况下它并不随OS一起出现。首先，您需要从Apple安装xcode套件，其中包括GCC编译器。

这个帖子解释了如何一步一步地完成它。

希望这能行。

票数 2

Stack Overflow用户

发布于 2014-10-01 18:08:31

您的计算机上没有安装wget，您使用的是Windows和Cygwin吗？从http://www.cs.princeton.edu/~blei/lda-c/ap.tgz下载该文件，将其解压并放在正确的文件夹中。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26145937

复制

相似问题

问Gensim中的BleiCorpus和关联新闻数据集: IO错误
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Gensim中的BleiCorpus和关联新闻数据集: IO错误EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Gensim中的BleiCorpus和关联新闻数据集: IO错误
EN