我正在开发一个ML模型,其中我已经在两个文件test.csv和train.csv中获得了数据。我想对两个文件一起执行数据清理,将它们连接起来,然后将它们分开。
我知道如何连接2个数据文件,但是在数据清理之后,我将如何分离这两个文件?请帮我完成密码。
test = pd.read_csv('test.csv')
train = pd.read_csv('train.csv')
df = pd.concat([test, train])
//Data Cleaning steps
//Separating them back to train and test set for providing input to model发布于 2020-09-14 10:24:19
在连接两个数据文件时添加一个指示符列,以便以后可以再次分离它们:
df = pd.concat([test.assign(ind="test"), train.assign(ind="train")])然后,你可以再把它们分开:
test, train = df[df["ind"].eq("test")], df[df["ind"].eq("train")]发布于 2020-09-13 00:23:29
有几种方法可供选择。如果坚持将这两个数据文件连接起来,那么首先向每个DataFrame添加一个名为source的新列。为test.csv 'test‘和同样的训练集设置值。
清理完组合的df后,使用源列再次拆分数据。
另一种方法是记录在培训集上执行的所有操作,然后简单地对测试集重复。这是行不通的--基于人口的价值观正常化。
发布于 2020-09-13 05:30:20
方法1:开发一个函数来执行一组数据清理操作。然后通过火车和测试或任何你想要清理的功能。结果将是一致的。
方法2:如果您想连接,那么一种方法是为测试数据集添加列" test“,并为列车数据集添加列" train”。执行您的操作,然后使用python拆分再次将其划分为2个dataframe
data[data['type']=="test"]https://datascience.stackexchange.com/questions/81617
复制相似问题