首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何组合、分离、测试和训练数据进行数据清洗?

如何组合、分离、测试和训练数据进行数据清洗?
EN

Data Science用户
提问于 2020-09-12 17:57:07
回答 4查看 17.8K关注 0票数 3

我正在开发一个ML模型,其中我已经在两个文件test.csvtrain.csv中获得了数据。我想对两个文件一起执行数据清理,将它们连接起来,然后将它们分开。

我知道如何连接2个数据文件,但是在数据清理之后,我将如何分离这两个文件?请帮我完成密码。

代码语言:javascript
复制
test = pd.read_csv('test.csv')
train = pd.read_csv('train.csv')

df = pd.concat([test, train])

//Data Cleaning steps

//Separating them back to train and test set for providing input to model
EN

回答 4

Data Science用户

发布于 2020-09-14 10:24:19

在连接两个数据文件时添加一个指示符列,以便以后可以再次分离它们:

代码语言:javascript
复制
df = pd.concat([test.assign(ind="test"), train.assign(ind="train")])

然后,你可以再把它们分开:

代码语言:javascript
复制
test, train = df[df["ind"].eq("test")], df[df["ind"].eq("train")]
票数 4
EN

Data Science用户

发布于 2020-09-13 00:23:29

有几种方法可供选择。如果坚持将这两个数据文件连接起来,那么首先向每个DataFrame添加一个名为source的新列。为test.csv 'test‘和同样的训练集设置值。

清理完组合的df后,使用源列再次拆分数据。

另一种方法是记录在培训集上执行的所有操作,然后简单地对测试集重复。这是行不通的--基于人口的价值观正常化。

票数 0
EN

Data Science用户

发布于 2020-09-13 05:30:20

方法1:开发一个函数来执行一组数据清理操作。然后通过火车和测试或任何你想要清理的功能。结果将是一致的。

方法2:如果您想连接,那么一种方法是为测试数据集添加列" test“,并为列车数据集添加列" train”。执行您的操作,然后使用python拆分再次将其划分为2个dataframe

代码语言:javascript
复制
data[data['type']=="test"]
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/81617

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档