首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >weka离散化

weka离散化
EN

Stack Overflow用户
提问于 2013-02-12 05:44:10
回答 1查看 3K关注 0票数 0

我需要知道什么时候是在the中进行离散化的合适时间,我有数据集,我需要从这些数据创建训练和测试数据样本。我应该在抽样之前还是抽样之后对数值属性进行离散化?

EN

回答 1

Stack Overflow用户

发布于 2013-02-12 07:44:39

这应该是显而易见的。

只要您的获得相同的结果,而不依赖于执行的拆分,您就可以在之后完成它。但这样做有什么好处呢?那就先做预处理。

如果你通过四舍五入(例如浮点数到整数)来离散,那么你应该很好(这不受拆分的影响)。但是,如果你用分位数来离散,很明显你会搞砸,因为你会把不同的部分离散开来!

假设您将数据离散为两个不同的值:

代码语言:javascript
复制
Input data    Type     Output value
0.9           good     1.05
1.0           good     1.05
1.1           good     1.05
1.2           good     1.05
---
2.1           good     2.20
2.3           good     2.20
2.2           good     2.20
---  SPLIT HERE ---
1.1           bad      1.20
1.2           bad      1.20
1.3           bad      1.20
---
1.9           bad      2.00
2.0           bad      2.00
2.1           bad      2.00

请看,通过使用每组值的平均值,“好”和“坏”都被离散为两个离散值。但是,由于“好”和“坏”的平均值不同,由此产生的属性显然暴露了真正的成员资格。发现“坏”的任务已经大大简化了。

不会执行单独的预处理,永远不会.

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14826188

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档