首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是数据泄漏?

什么是数据泄漏?
EN

Data Science用户
提问于 2023-05-15 01:12:00
回答 2查看 108关注 0票数 1

目前,我正在使用不平衡的数据处理二进制分类问题。我使用的算法是随机森林。问题在于预测每个销售项目是否能达到目标。

例如,销售经理可能有多个销售项目在他下面运行。我们需要ML来预测每个项目在项目开始时实现其目标的可能性。每个项目的周期为3至5年。因此,每年都有一个具体的目标需要实现。

根据该项目目前的年份,我们想知道该项目是否能在该具体年份之前达到其目标。如果项目是在第三年,我们需要找到可能的项目,以实现其第一个3年的目标(第一,第二和第三年)。

因此,我现在的问题是,包括两栏/功能,其中包括到目前(第三年)达到的目标/购买单位的价值,以及“在项目开始时设定的目标”。是否可以包括“按日期完成总目标/购买单位”和“在项目开始时设定的目标”的特点?

或者是数据泄漏,还是被认为是对模型的偏见?

我们已经实现了目标/单位购买日期为每个项目的信息,这是经常更新的基础上作出的购买。

每个项目,我们试图预测的可能性,将达到0%的目标,或10%的目标,或20%的目标,或超过目标,直到那个时间点等。所以,我们有这个信息,所有的记录。

如果output_label列超过目标,则标记为1;如果未达到目标,则标记为0。因此,我们为一个项目提供目标设定的模型(例如:1000个单元),以及它们到目前为止已经完成了多少(例如:200个已经购买的单元)以及其他变量。

那么,你认为这是一个数据泄漏还是考虑偏颇的模型?我可以使用这两个功能吗?

因为我在分析开始时就有了这两个特性的数据。这意味着,如果我今天正在提取数据/构建模型,我可以找到昨天“已实现的目标”和“在项目开始时设定的目标”(使用哪种标签)的最新值。

但如果ML模型容易捕捉到目标之间的关系(如果目标达到了>=目标集--实现目标的高可能性,则实现目标的可能性低)。

那么,在这种情况下,我们首先需要ML吗?我很困惑。当然,除了这些特性之外,我还试图在历史数据的基础上增加更多的输入变量。你能指导我把这两个特性-- target settarget achieved as of date --结合起来是否还行吗?但是是的,包括这些特性可以提高模型的性能。

虽然这两个特性主要推动了测试数据中f1的87%的预测,但是如果我包括我的附加特性,它们在测试数据中占到f1的93%。如果不考虑这两个特点,少数族裔的f1大约是55-60% .

但有一件事,我发现这两列并不是紧密相关的本身,也与目标。因此,我不确定在这两个特性之后,预测性能是如何得到如此大幅度提高的。

另外,需要注意的一点是,我的输出变量是使用涉及这两个特性的公式/规则计算的。

然而,当我在测试数据上验证性能时,我没有看到任何过度适应或性能下降的迹象。但是的,这两个特征推动了预测,所有的贡献约87%的f1评分,其中作为其他3-4的预测因素增加了另外5分。

那么,尽管这些特性被用于创建基于规则的标签,但在模型构建中使用这些功能好吗?我不让模型知道确切的公式/规则。那么,你怎么看?

EN

回答 2

Data Science用户

回答已采纳

发布于 2023-05-15 22:59:46

当您使用无法用于未来测试/推理的数据对模型进行培训时,或者当您使用相同的数据进行培训,然后用于验证和/或测试时,数据泄漏就会发生。这个简短的卡格尔文章很好地总结了它。

如果您有一个特性(例如target_year_x),它以某种方式量化了当前x实现的目标目标的数量,我担心这可能会在您的模型中引入偏差,而且在技术上可能是数据泄漏。该特性的高值表明项目接近于实现其目标,并且更有可能实现其目标;因此,模型将了解(非常明显的事情),target_year_x的高值对项目的成功具有很高的预测作用。

我的建议是,可以尝试多种模型,例如,一个模型预测第一年的成功,一个在第二年,等等。或者,单独的模型,为不同的项目阶段,如果你可以以某种方式逻辑地分开项目。如果您尝试这样做,请注意不要包含与早期模型的后一阶段相关的特性(例如,不要包含提供项目第二年绩效信息的特性,用于第一年预测的模型)。

或者,正如布赖恩·斯皮林( Brian Spiering )的另一个答案--这也是一个很好的选择--海事组织( IMO ),如果每个项目需要多个时间序列预测,而不是二元分类问题,你可以考虑把它作为一个时间序列预测问题。

票数 2
EN

Data Science用户

发布于 2023-05-15 17:08:04

数据泄漏的一个定义是在培训期间向模型提供在未来预测时间无法获得的数据。根据这一定义,“已实现的总目标/按日期购买的单位”这一变量不是数据泄漏。

您的问题可能被描述为时间序列预测,而不是表格预测。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/121538

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档