给出了用户作为功能安装的软件列表,例如,
Microsoft_VC80_DebugCRT_x86_x64 1.0.0;Microsoft_VC80_DebugCRT_x86 1.0.0;UPnP浏览器0.1.01;Acrobat 10;
我想预测学生是否会买某些产品。
现在的问题是:如何通过机器学习算法将软件列表转化为可以学习的东西?
发布于 2017-01-19 03:17:19
我会建立一个多个自变量的logistic回归。我不认为这是唯一的可能,但逻辑回归是合理的,你试图建模的概率购买。
显然,您的因变量将是一个产品是否购买,所以它应该是二进制的。你的自变量也是二进制的。还可以将二进制变量合并为较小数量的分类变量。
你应该做至少成对的相关(例如Phi系数)。您可以使用它将高度相关的变量(如Microsoft Windows Word和Microsoft Windows Excel )合并到Microsoft Office中。
发布于 2017-01-19 03:17:11
将安装的软件作为分类变量,使用训练数据训练二进制分类器(如logistic回归)。如果你不这样做,你什么也做不了。您可以从公司和软件产品的类型等创建派生的分类变量。
发布于 2017-01-19 14:04:54
您的问题符合推荐引擎的领域。
根据用户使用的软件,您希望评估他使用另一个软件的可能性(可能还会购买)。
这个文档很好地描述了逻辑。
项目分析阶段可以使用成对关联和其他启发式方法来完成。
请注意,这些方法通常需要比标准分类器(logistic回归/决策树/~SVM)更多的数据。
https://datascience.stackexchange.com/questions/16395
复制相似问题