我有一个系统,向用户发送参与在线问卷的邀请,并希望使用机器学习来预测在预定的时间内(即1天、2天、3天、1周、2周等)完成问卷的可能性,根据发送邀请的用户的各种特性、问卷的细节(即他们的时间、他们的主题等)、其他上下文数据(一天的时间、一天的时间、发出邀请的媒体-即sms / email等)。我可以用正面的例子(用户响应的邀请)和负面的例子(没有响应的邀请)进行培训,但是,我不知道如何将“预定义的时间”考虑到特征向量中。例如,我是否应该简单地包含一个功能“自发出邀请以来的日子”,在积极的例子中包括时间,在否定的例子中复制每个示例X的每个预定义的时间,以表明用户根本没有响应?
欢迎任何建议!
发布于 2017-03-07 09:16:04
您有数据泄漏的问题。“邀请发出后的日子”功能包含了关于这一概念的所有信息。因此,将其添加为一个特性将防止大多数常见的分类器使用基于其他特性的规则,并将导致误导性结果。
重复每个预定义的时间值的负行将导致与您应该测试的分布不同,这需要针头问题。
请注意,即使这样,该功能也可能泄漏信息(例如,两周内,肯定值的小比例会重放,而它在负片中的分布将更高,这使它成为一个很好的负面预测器)。
如果你会有更复杂的时间表示(例如,电子邮件是在周末发送的?)如果是周末发送的回复),重复的行将更加复杂。
我会尝试另一个方向。负数行很可能对正面行的回复时间没有影响。因此,我将进行第一次研究,目的是在没有预先确定的时间的情况下,区分答复和无答复。
在那之后,做第二项研究,只对概念将是预定义的时间的积极方面进行研究,目的是找出在用户已经回答的情况下影响的因素。
https://datascience.stackexchange.com/questions/17402
复制相似问题