首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将SKLearn癌症数据集加载到Pandas DataFrame中

将SKLearn癌症数据集加载到Pandas DataFrame中
EN

Stack Overflow用户
提问于 2017-06-03 04:58:09
回答 6查看 25.2K关注 0票数 13

我正在尝试加载一个sklearn.dataset,并根据键(target_names、target & DESCR)缺少一列。我尝试过各种方法来包含最后一栏,但是有错误。

代码语言:javascript
复制
 import numpy as np
 import pandas as pd
 from sklearn.datasets import load_breast_cancer

 cancer = load_breast_cancer()
 print cancer.keys()

这些键是‘target_name’,'data','target','DESCR','feature_names‘

代码语言:javascript
复制
 data = pd.DataFrame(cancer.data, columns=[cancer.feature_names])
 print data.describe()

使用上面的代码,当我需要31列时,它只返回30列。什么是最好的方式加载科学知识-学习数据集到熊猫DataFrame。

EN

回答 6

Stack Overflow用户

发布于 2017-07-17 07:31:36

另一个选项,但只有一个线性,创建包含特性和目标变量的数据文件是:

代码语言:javascript
复制
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
df = pd.DataFrame(np.c_[cancer['data'], cancer['target']],
                  columns= np.append(cancer['feature_names'], ['target']))
票数 16
EN

Stack Overflow用户

发布于 2017-06-03 05:46:12

如果您想要有一个target列,就需要添加它,因为它不在cancer.data中。cancer.target有带有01的列,而cancer.target_names有标签。我希望以下是你想要的:

代码语言:javascript
复制
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
print cancer.keys()

data = pd.DataFrame(cancer.data, columns=[cancer.feature_names])
print data.describe()

data = data.assign(target=pd.Series(cancer.target))
print data.describe()

# In case you want labels instead of numbers.
data.replace(to_replace={'target': {0: cancer.target_names[0]}}, inplace=True)
data.replace(to_replace={'target': {1: cancer.target_names[1]}}, inplace=True)
print data.shape # data.describe() won't show the "target" column here because I converted its value to string.
票数 5
EN

Stack Overflow用户

发布于 2017-06-03 05:59:16

这也是工作的,也使用pd.Series。

代码语言:javascript
复制
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
print cancer.keys()

data = pd.DataFrame(cancer.data, columns=[cancer.feature_names])
data['Target'] = pd.Series(data=cancer.target, index=data.index)

print data.keys()
print data.shape
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44340445

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档