我试图弄清楚如何对数据进行按摩,并对以下场景进行建模:
一家餐馆的顾客对服务质量的评分在1-10之间.
我有关于服务器和客户之间的个人交互的数据。例如-互动的长度,互动的类型(灌装饮料,点菜,清洁等).
这里的假设是,每一种相互作用都有助于最终得分。我想要建立一个模型,告诉我一个交互,它如何移动得分。
我的直觉是,如果我把数据安排成单独的交互,并输出最后的分数,我就会得到我想要的。这是真的吗?
发布于 2019-07-27 00:16:16
我的直觉是,如果我把数据安排成单独的交互,并输出最后的分数,我就会得到我想要的。这是真的吗?
如果我的理解是正确的,你的目标是预测顾客在晚餐结束时给出的最后分数,根据他们在晚餐期间的互动情况,对吗?如果是,那么我不认为您可以将单个交互保持为实例,因为(1)模型将只能使用一个交互来预测得分,(2)模型将预测每个交互的不同得分。
因此,每个实例都应该表示完整的膳食,并以某种方式包含从交互中提取的所有可能的信息。例如,一个实例可以包含交互的数量、总长度、填充数等。
(附带说明:我不喜欢在一家顾客和员工受到如此严密监控的餐厅吃饭,但也许只有我一个人。)
发布于 2019-07-27 14:28:08
您可以评估每个功能的重要性,如果您有一个模型,预测分数。在这个模型中,特征向量将包含所有可能的交互,目标是得分。你应该在其他人的背景下考虑每一种互动。因此,当您的输入只是一次交互而没有其他信息时,您无法预测分数。如果是这样(你只有一个交互考虑),你只需说,与其他交互相比,它的价值变化将如何影响最终得分。
另一项任务可以是预测每个交互的值(将是目标),将分数和其他交互作为特征向量。然后,您应该为每个交互都有一个单独的模型。然而,它会对你的应用有用吗?
发布于 2019-08-28 14:24:20
关于你的框架的几点评论。你想预测分数(1)还是你想评估每个输入变量(自变量)在多大程度上有助于评估分数(2)?请澄清。
(1)预测:随机森林和神经网络可以帮助你预测分数(请记住用于估计的每个统计模型(2)也可以用于预测)
(2)估计/变量选择:主成分分析(PCA)、LASSO/Ridge回归(执行变量选择)、多元线性回归(估计值的p值不一定是变量选择的好指标)。
https://datascience.stackexchange.com/questions/56466
复制相似问题