我还不知道如何把这个问题清楚地写成一个机器学习任务。希望你们能插话给我点帮助。
问题:通过查看顾客在n周的行为,预测某人是否会在每周的办公时间拿起手机,n+2。
资料:我有大约3个月的通话记录,这些记录都是在客户级别上汇总的。各种属性包括:呼叫数、呼叫持续时间、呼叫时间、数据通信量。但当然,这些主要属性在大约20个属性中被进一步划分。
当前方法(非常手动):我查看n+2周的数据,并得到一群在办公时间接电话的人(通话时间> 5s和通话时间)。这是目标群体,T.
我查看第n周的数据,并手动尝试所有可能的属性组合,以尽可能接近T。但经过一段时间,手工尝试似乎很累人。基线当然是使用与n+2周相同的条件,但整个想法是增加这个数字。
问:是否有任何方法可以转换这个数据集,使我能够完成它作为机器学习的任务?
发布于 2016-10-10 13:28:32
你可以尝试建立某种“滑动窗口表”。假设您具有以下属性:
让我们进一步假设您拥有过去3周的数据,这允许我们设置下表。行包含单独的调用,列包含属性。附录_1告诉我们时间。例如,x1_1是前一周的呼叫持续时间,x2_2是呼叫前两周的时间等等。
客户端-- x1_1
您可以使用历史数据来训练您的模型,x3_3上周就在那里。然后,您将向模型提供当前数据(_3是当前周*),并尝试预测x3_3 --客户是否会选择电话。
*我假设您知道您将调用谁,因此您拥有_3属性,但您还不知道它们是否响应。
其目的是给模型提供学习时间依赖的机会--可能是通话周前的时间以及通话时间与再次打电话的机会密切相关。
还可以帮助执行功能选择。假设某些属性与其他属性密切相关,而其他属性则不相关。您只需使用x1_1、x2_1并查看与x3_1的关系,但我建议经常重新计算这些值,因为首选项可能会随着时间的推移而改变。
https://datascience.stackexchange.com/questions/14434
复制相似问题