文章/答案/技术大牛

发布

社区首页 >问答首页 >在sklearn和skmultilearn中以脱机模式加载数据集

问在sklearn和skmultilearn中以脱机模式加载数据集
EN

Stack Overflow用户

提问于 2019-11-18 17:12:27

回答 1查看 642关注 0票数 2

我想在我的anaconda项目(python 3.6.5)中使用数据集:情感、场景和酵母。我使用了下列密码：

import skmultilearn.dataset load_dataset X_train，y_train，feature_names，label_names =load_dataset(“情感”，“train”)

当我连接到互联网时，它是成功的，但当我离线时，它不工作！我已经在这样的文件夹中下载了上面命名的所有数据集：

H：\Projects\数据集

当我脱机时，如何使用此文件夹作为我的源数据集？(我在使用windows 10)

我下载的数据集的扩展是：.rar : emotions.rar、scene.rar和yeast.rar，我从：http://mulan.sourceforge.net/datasets-mlc.html下载了它们

python

scikit-learn

multilabel-classification

skmultilearn

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-18 19:07:39

您可以，但首先需要知道数据集存储到的路径。要做到这一点，您可以加载一次并获得路径。此路径将永远不会更改，因此您只需执行一次以下操作即可获得所需的路径。接下来，知道路径，您可以加载脱机任何您想要的。

示例

from sklearn.datasets import load_iris
import pandas as pd, os

#get the path
path = load_iris()['filename']
print(path)

#offline load
df = pd.read_csv(path)

#the path: THIS IS WHAT YOU NEED
main_path_with_datasets = os.path.dirname(path)

一旦您获得了main_path_with_datasets，即通过执行main_path_with_datasets = os.path.dirname(path)，您现在就有了路径。您可以使用它加载所有可用的下载数据集。

os.listdir(main_path_with_datasets)

['digits.csv.gz',
 'wine_data.csv',
 'diabetes_target.csv.gz',
 'iris.csv',
 'breast_cancer.csv',
 'diabetes_data.csv.gz',
 'linnerud_physiological.csv',
 'linnerud_exercise.csv',
 'boston_house_prices.csv']

用于skmultilearn的编辑

from skmultilearn.dataset import load_dataset_dump

path = 'C:\\Users\\myname\\scikit_ml_learn_data\\'

X, y, feature_names, label_names = load_dataset_dump(path + 'emotions-train.scikitml.bz2')

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58919771

复制

相似问题

问在sklearn和skmultilearn中以脱机模式加载数据集
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在sklearn和skmultilearn中以脱机模式加载数据集EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在sklearn和skmultilearn中以脱机模式加载数据集
EN