本文介绍了几种常见的数据集划分与交叉验证的方法策略以及它们的优缺点,主要包括了Train-test-split、k-fold cross-validation、Leave One Out Cross-validation
基础知识:https://korlakuntasaikamal10.medium.com/pytorch-for-deep-learning-part-1-af4a1daa3454 使用 sklearn Train-Test-split
这些处理都基于一个基本的DataProcessor类,该类具有保存和应用train-test-split的内置特性,因此可以轻松地从它创建新的处理类。
数据预处理是机器学习的必要步骤,比如当初始化 setup() 时,缺失值填充、分类变量编码、标签编码(将 yes or no 转化为 1 or 0)以及 train-test-split 会自动执行。
特别提醒:当setup()初始化时,将自动执行机器学习必需的数据预处理步骤,例如缺失值插补,分类变量编码,标签编码(将yes或no转换为1或0)和训练、测试集拆分(train-test-split)。