我为一家商业公司工作,数据集包含大约2700个作为客户的业务。对于每个商业客户,我有大约的员工人数,地点,行业,销售代表管理他们的帐户,在过去的7年中,我与他们每个月的利润。我可以执行哪些数据科学/机器学习/统计技术或分析来使用这些数据来选择将来作为客户应该尝试获得哪些业务?如果有什么方法值得考虑来丰富这些数据集呢?
发布于 2018-06-21 17:53:14
您可以使用线性回归来建模每个客户给您的利润与其他变量之间的关系:员工、位置、行业等等。
使用此技术,您将最终获得每个考虑的变量的回归系数。这些系数将告诉你一个变量是如何影响利润的,然后你就可以检查诸如:拥有更多员工的客户会产生更多利润吗?每名工作人员的利润增加多少?诸若此类。
此外,有了这些系数,你可以很容易地预测,对于潜在的消费者,多少将是他们的利润。这个预测并不完美,因为它是一个相关的错误,但是如果您正确地指定模型,它可能是非常好的。由于互联网上有很多关于这方面的资料,我不会再写更多了。
我不知道你对数学了解多少,或者打算深入研究这门学科,但这篇文章可以作为第一篇介绍:https://towardsdatascience.com/mathematics-for-machine-learning-linear-regression-least-square-regression-de09cf53757c
当然,线性回归并不是解决问题的唯一方法,但它是一个简单的解决方案,在某个地方可以开始。您还可能希望(稍后)查找考虑到数据纵向依赖性的回归树模型和模型。纵向的意思是,你有重复的措施,为相同的客户的时间。
https://datascience.stackexchange.com/questions/33435
复制相似问题