我目前正在从事一个项目,该项目将受益于个性化预测。给定输入文档、输出文档集和用户行为历史记录,我想预测单击了哪些输出文档。
简而言之,我想知道解决这种个性化问题的典型方法是什么。模型是对每个用户进行培训,还是单个全局模型使用过去用户行为的汇总统计信息来帮助决策?在用户活动一段时间之前,每个用户的模型都是不准确的,而大多数全局模型必须采用固定长度的特征向量(这意味着我们或多或少需要将过去的事件流压缩成较少的汇总统计信息)。
发布于 2014-06-30 23:10:53
这个问题的答案将因数据的大小和性质而大不相同。在高层次上,您可以将其视为多级模型的特例;您可以选择使用完全池(即不区分用户的通用模型)、没有池的模型(为每个用户提供单独的模型)和部分池模型(两者的混合物)来估计模型。如果你感兴趣的话,你应该读一下安德鲁·盖尔曼关于这个话题的文章。
您也可以认为这是一个学习到排名的问题,它要么尝试使用单个函数生成逐点估计,要么尝试优化某些按列表排列的损失函数(例如NDCG)。
与大多数机器学习问题一样,这都取决于您拥有的数据类型、它的质量、它的稀疏性,以及您可以从中提取出什么样的特性。如果你有理由相信每个用户在他们的行为上都会很独特,你可能想要建立一个每个用户的模型,但是这会很难处理--当你面对一个新用户时,你会做什么?
https://datascience.stackexchange.com/questions/640
复制相似问题