假设我们有2015年到2019年的客户数据,我想要train_test_split()我的数据被分成三组,set-1是从2015年到2017年(3年),我将在它上训练我的模型,set-2,即2018年(1年),我将在它上验证我的模型,SE3是2019年(1年),我将在它上测试我的模型。我想要一个根据时间(年数)将数据分成3组的代码。
发布于 2020-01-16 20:05:05
在我看来,最好(或至少最快)的方法是将所有数据都放在Pandas数据中,然后根据年份创建掩码,并为每个组创建新的数据格式。例如:
train_df = data[data['year'].isin(['2015', '2016', '2017'])
validate_df = data[data['year'] == '2018']
test_df = data[data['year'] == '2019']希望这就是你要找的。如果没有,请告诉我,我们可以想出另一个解决办法。
https://datascience.stackexchange.com/questions/66586
复制相似问题