我有一个名为“电子邮件”的文件夹,两个子文件夹的名称与他们所拥有的文件的分类相对应的标签(垃圾邮件或非垃圾邮件,都是.txt文件)。这两个子文件夹中有3000个文件。使用load_files:
data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)这个打印'5‘然后'3000’。如果发现了3000种分类标签,数据的长度怎么可能只有5?
发布于 2015-05-04 10:13:06
您的数据存储在data.data中,目标存储在data.target中。试一试print(len(data.data))。
load_files()只返回一个sklearn.datasets.base.Bunch,这是一个简单的数据包装器。因此,data的格式如下:
{
'DESCR': None,
'data': [],
'filenames': array(),
'target': array(),
'target_names': []
}这就是为什么len(data)返回5的原因。
希望这能有所帮助!
https://stackoverflow.com/questions/30027027
复制相似问题