我有以下问题:
一家公司,让我们称之为X,有一个工作-添加网站。它作为一个市场工作,求职者和有职位空缺的公司可以满足。
他们的商业模式是这样的:求职者在试用期后支付订阅费才能访问该网站。另一方面,公司不为发布职位支付任何报酬--补充道。
为了吸引公司在网站上发布职位,他们打电话给他们,询问他们是否感兴趣。他们与N家公司建立了一个数据库,这些公司过去曾与他们做过业务。在这些"N“中,由于预算和人员的限制,他们只能调用20%。
他们从简单的启发中选择了这20%:在过去的六个月里,张贴职位的公司增加了职位。
他们想要的是称那些很有可能发布一份工作的公司,再加上会产生匹配的职位。他们认为基于一项代理进行了匹配:该公司为某一特定职位添加了n个不同的候选人。
我想找一种数据驱动的方法来选择最好的公司给他们打电话。换句话说,向他们提供一份公司名单,这些公司的生成概率很高,这与他们当前的用户数据库相匹配。
我面临的问题是如何将这个业务问题转化为机器学习解决方案。
到目前为止,我的想法是建立一个分类模型。每一行都是一个作业添加。其特点是与公司相关的变量(规模、地点)、用户(年龄、简历、上次登录)以及工作本身(薪资、所需学历、职位、行业)。目标变量是“作业是否有马赫”的二进制。
我的方法的问题是,模型实际上并没有学到任何东西,因为我的目标变量对于每个职位都是已知的(我知道哪个工作添加了匹配,而哪个没有匹配)。
我正在寻找一些关于如何在数据驱动的框架中构造这个问题的想法。我应该继续我的分类模型吗?也许是某种协作过滤?我相信机器学习能提供比他们简单的启发更好的结果。谢谢!
我掌握的数据:
发布于 2017-02-09 13:13:17
对于这种普遍的问题,有许多可能的方法,我不能全部列出。通常,您希望使用最简单的模型,通过一种更天真的方法来创造价值。因此,我们可以查看按复杂性排列的不同方法,并查看每种方法所需的内容。这就是我在这个分析中尝试的顺序:
(1)最简单的方法是直接接触20%的平面,随机抽取。这是很容易做到的,但希望它可以得到改进。
(2)接下来,您可以尝试一种基于手头问题的基本统计数据的方法。例如,你可以计算那些以前投放广告的雇主,他们收到了多少份申请。然后从那些得到最多的人开始,然后按你的方式工作。
(3)既然你有了做盲的基线集,然后是一个基本的描述性分析方法,你就可以尝试一些更复杂的方法。假设你有来自过去广告的文本,你可以挖掘该文本的功能,这可能是描述他们正在寻找的东西。如果雇主投放了多个广告,你可以将这些广告组合起来,并在总体上寻找功能。一旦您对简历数据做了同样的操作,您就可以创建一个推荐引擎来匹配潜在的雇主和雇员。然后,您可以使用这些数据来确定哪个可能的雇主最有可能在客户池中有潜在的匹配。作为一个副作用,这个引擎还可以指导您的客户,哪些工作可能是最好的匹配。你可以在这里使用许多变体。例如,对于推荐引擎,您可能希望将客户端示例加权到最近或最频繁登录的客户端,这样就可以过滤掉最近没有真正查看过的“陈旧”客户端。
*当你说你知道谁申请时,警铃响了。真的吗?或者你有点击统计数据来知道他们是否启动了一个应用程序?你怎么知道他们申请了?真实世界数据分析的第一条规则是,你需要怀疑你的数据,尤其是你认为你的数据代表了什么。
https://datascience.stackexchange.com/questions/16839
复制相似问题