首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习算法的特征使用

机器学习算法的特征使用
EN

Data Science用户
提问于 2017-01-19 02:42:31
回答 3查看 80关注 0票数 0

给出了用户作为功能安装的软件列表,例如,

Microsoft_VC80_DebugCRT_x86_x64 1.0.0;Microsoft_VC80_DebugCRT_x86 1.0.0;UPnP浏览器0.1.01;Acrobat 10;

我想预测学生是否会买某些产品。

现在的问题是:如何通过机器学习算法将软件列表转化为可以学习的东西?

EN

回答 3

Data Science用户

发布于 2017-01-19 03:17:19

我会建立一个多个自变量的logistic回归。我不认为这是唯一的可能,但逻辑回归是合理的,你试图建模的概率购买。

显然,您的因变量将是一个产品是否购买,所以它应该是二进制的。你的自变量也是二进制的。还可以将二进制变量合并为较小数量的分类变量。

你应该做至少成对的相关(例如Phi系数)。您可以使用它将高度相关的变量(如Microsoft Windows WordMicrosoft Windows Excel )合并到Microsoft Office中。

票数 1
EN

Data Science用户

发布于 2017-01-19 03:17:11

将安装的软件作为分类变量,使用训练数据训练二进制分类器(如logistic回归)。如果你不这样做,你什么也做不了。您可以从公司和软件产品的类型等创建派生的分类变量。

票数 0
EN

Data Science用户

发布于 2017-01-19 14:04:54

您的问题符合推荐引擎的领域。

根据用户使用的软件,您希望评估他使用另一个软件的可能性(可能还会购买)。

这个文档很好地描述了逻辑。

项目分析阶段可以使用成对关联和其他启发式方法来完成。

请注意,这些方法通常需要比标准分类器(logistic回归/决策树/~SVM)更多的数据。

票数 -1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/16395

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档