我有大约4000篇博客文章在我身边。我想根据以下值对所有职位进行排名
Upvote Count => P
Comments Recieved => C
Share Count => S
Created time in Epoch => E
Follower Count of Category which post belongs to => F (one post has one category)
User Weight => U (User with most number of post have biggest weight)我在等待伪码的答案。
发布于 2013-06-11 07:09:11
您的问题属于(链接)范畴。在机器学习方面,您有一个(链接)集合(在您的问题中列出该集合),并且您有一个评分值,您想要预测给定这些特性的。
泰德霍普的建议基本上是一个(链接)。对于您的场景来说,这可能太简单了。
考虑对您的问题使用(链接)。下面是你如何使用它的方法。
1.创建模型学习数据集
从你的4000篇博客中随机选择一些m博客文章。这应该是一个足够小的集合,您可以轻松地浏览这些m博客文章。
对于每一篇m博客文章,用一个从0到1的数字来衡量它的“好”程度。如果这有帮助,您可以认为这是使用0, 1, 2, 3, 4“星星”作为0, 0.25, 0.5, 0.75, 1值。
现在您有了m博客文章,每个文章都有一组功能和分数。
您可以选择扩展您的功能集以包括派生功能--例如,您可以包括“向上投票计数”、“收到的评论”、“股票计数”和“追随者计数”的对数,还可以包括从“现在”到“创建时间”之间小时数的对数。
2.学习你的模型
使用梯度下降找到适合模型学习数据集的logistic回归模型。您应该将数据集划分为培训、验证和测试集,以便在模型学习过程中执行这些步骤。
我将不再详细介绍这一节,因为互联网上充满了细节,这是一个固定的过程。
维基百科链接:
3.应用你的模型
在学习了你的逻辑回归模型之后,你现在可以应用它来预测一个新博客文章的“好”分数!只需计算一组特征(和派生特性),然后使用您的模型将这些特征映射到一个分数。
再一次,互联网上充满了这一部分的细节,这是一个固定的过程。
如果你有任何问题,一定要问!
如果您有兴趣学习更多关于机器学习的知识,您应该考虑使用基于Coursera.org的斯坦福机器在线学习课程。(我没有附属于斯坦福大学或古瑟尔大学。)
发布于 2013-06-11 04:59:34
我建议对每个博客帖子的个人得分进行加权平均。指定一个权重,它既反映了每个值的相对重要性,也反映了价值尺度上的差异(例如,与其他值相比,E将是一个非常大的数字)。然后计算:
rank = wP * P + wC * C + wS * S + wE * E + wF * F + wU * U;您没有提供任何关于每个值的相对重要性的信息,甚至没有提供这些值在等级方面的含义。所以这件事再具体不过了。(一个较老的创造时间是推动职位上升还是下降?如果下降,那么wE应该是负的。)
https://stackoverflow.com/questions/17036686
复制相似问题