我正在学习Python的“构建机器学习系统”一书中关于主题建模/潜在Dirichlet分配(LDA)的教程。
在这本书中,我并没有做得太过火,而主题建模的第一部分为我返回了错误:
from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt')错误:
63
64 self.fname = fname
---> 65 with utils.smart_open(fname_vocab) as fin:
66 words = [utils.to_unicode(word).rstrip() for word in fin]
67 self.id2word = dict(enumerate(words))
/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode)
659 from gzip import GzipFile
660 return make_closing(GzipFile)(fname, mode)
--> 661 return open(fname, mode)
662
663
IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt'vocab.txt文件不存在,但是切换到它应该在的目录中,我发现如下:
$ ls download_ap.sh download_wp.sh预处理-wikidata.sh
看起来ap数据需要单独下载(书中没有提到),所以通过这样做:
sh download_ap.sh我明白了:
download_ap.sh: line 2: wget: command not found
tar: Error opening archive: Failed to open 'ap.tgz'有人知道如何解决这个问题吗?
谢谢
发布于 2014-10-01 19:03:55
代码或开发环境没有任何问题。最有可能的问题是你没有钱。如果您想尝试使用CURL,也可以实现相同的功能。您也可以直接从其他来源(做谷歌搜索)下载美联社语料库,并将其放在Gensim用于本教程的目录中。
如果您想完全按照本书的方式学习教程,那么您可能需要安装wget,对于OS (我假设这是您的系统),需要进行一些配置。要将wget添加并安装到OS,您需要下载源文件、编译代码并进行安装。要实际编译代码,您需要一个编译器,不幸的是,默认情况下它并不随OS一起出现。首先,您需要从Apple安装xcode套件,其中包括GCC编译器。
这个帖子解释了如何一步一步地完成它。
希望这能行。
发布于 2014-10-01 18:08:31
您的计算机上没有安装wget,您使用的是Windows和Cygwin吗?从http://www.cs.princeton.edu/~blei/lda-c/ap.tgz下载该文件,将其解压并放在正确的文件夹中。
https://stackoverflow.com/questions/26145937
复制相似问题