首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >带有Python的LDA -输入文件

带有Python的LDA -输入文件
EN

Stack Overflow用户
提问于 2015-05-19 07:21:04
回答 1查看 997关注 0票数 3

我正在用Python运行lda库,并且我正在运行这个示例。有人知道X、Does和title的格式吗?我找不到文档。

代码语言:javascript
复制
import numpy as np
import lda
X = lda.datasets.load_reuters()
vocab = lda.datasets.load_reuters_vocab()
titles = lda.datasets.load_reuters_titles()
EN

回答 1

Stack Overflow用户

发布于 2015-05-19 11:42:10

X是一个矩阵,其中行是标题,和列是单词。它是标题文本的一大堆单词表示。

代码语言:javascript
复制
X
Out[8]: 
array([[1, 0, 1, ..., 0, 0, 0],
       [7, 0, 2, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ..., 
       [1, 0, 1, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0]], dtype=int32)    

在上面的矩阵中,每一行都是单个标题的一袋单词。每一列代表一个特定的单词示例。

代码语言:javascript
复制
vocab[:5]
Out[5]: ('church', 'pope', 'years', 'people', 'mother')  

因此,X矩阵中的每一行i,col j都给出了第i个标题中特定单词的频率。

代码语言:javascript
复制
titles[:1]
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)  

标题:查尔斯王子..。一次提到教会,0次提到教皇,一次提到年份,以此类推。

代码语言:javascript
复制
In [13]: type(titles)
Out[13]: tuple

In [14]: type(vocab)
Out[14]: tuple

In [15]: type(X)
Out[15]: numpy.ndarray
票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30314295

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档