文章/答案/技术大牛

发布

社区首页 >问答首页 >如何组合、分离、测试和训练数据进行数据清洗？

问如何组合、分离、测试和训练数据进行数据清洗？
EN

Data Science用户

提问于 2020-09-12 17:57:07

回答 4查看 17.8K关注 0票数 3

我正在开发一个ML模型，其中我已经在两个文件test.csv和train.csv中获得了数据。我想对两个文件一起执行数据清理，将它们连接起来，然后将它们分开。

我知道如何连接2个数据文件，但是在数据清理之后，我将如何分离这两个文件？请帮我完成密码。

码

test = pd.read_csv('test.csv')
train = pd.read_csv('train.csv')

df = pd.concat([test, train])

//Data Cleaning steps

//Separating them back to train and test set for providing input to model

python

dataset

pandas

dataframe

python-3.x

回答 4

Data Science用户

发布于 2020-09-14 10:24:19

在连接两个数据文件时添加一个指示符列，以便以后可以再次分离它们：

df = pd.concat([test.assign(ind="test"), train.assign(ind="train")])

然后，你可以再把它们分开：

test, train = df[df["ind"].eq("test")], df[df["ind"].eq("train")]

票数 4

Data Science用户

发布于 2020-09-13 00:23:29

有几种方法可供选择。如果坚持将这两个数据文件连接起来，那么首先向每个DataFrame添加一个名为source的新列。为test.csv 'test‘和同样的训练集设置值。

清理完组合的df后，使用源列再次拆分数据。

另一种方法是记录在培训集上执行的所有操作，然后简单地对测试集重复。这是行不通的--基于人口的价值观正常化。

票数 0

Data Science用户

发布于 2020-09-13 05:30:20

方法1:开发一个函数来执行一组数据清理操作。然后通过火车和测试或任何你想要清理的功能。结果将是一致的。

方法2:如果您想连接，那么一种方法是为测试数据集添加列" test“，并为列车数据集添加列" train”。执行您的操作，然后使用python拆分再次将其划分为2个dataframe

data[data['type']=="test"]

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/81617

复制

相似问题

问如何组合、分离、测试和训练数据进行数据清洗？
EN

码

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何组合、分离、测试和训练数据进行数据清洗？EN

码

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何组合、分离、测试和训练数据进行数据清洗？
EN