我需要知道什么时候是在the中进行离散化的合适时间,我有数据集,我需要从这些数据创建训练和测试数据样本。我应该在抽样之前还是抽样之后对数值属性进行离散化?
发布于 2013-02-12 07:44:39
这应该是显而易见的。
只要您的获得相同的结果,而不依赖于执行的拆分,您就可以在之后完成它。但这样做有什么好处呢?那就先做预处理。
如果你通过四舍五入(例如浮点数到整数)来离散,那么你应该很好(这不受拆分的影响)。但是,如果你用分位数来离散,很明显你会搞砸,因为你会把不同的部分离散开来!
假设您将数据离散为两个不同的值:
Input data Type Output value
0.9 good 1.05
1.0 good 1.05
1.1 good 1.05
1.2 good 1.05
---
2.1 good 2.20
2.3 good 2.20
2.2 good 2.20
--- SPLIT HERE ---
1.1 bad 1.20
1.2 bad 1.20
1.3 bad 1.20
---
1.9 bad 2.00
2.0 bad 2.00
2.1 bad 2.00请看,通过使用每组值的平均值,“好”和“坏”都被离散为两个离散值。但是,由于“好”和“坏”的平均值不同,由此产生的属性显然暴露了真正的成员资格。发现“坏”的任务已经大大简化了。
不会执行单独的预处理,永远不会.。
https://stackoverflow.com/questions/14826188
复制相似问题