我是在BI和BD非常新,但希望有一些方向以下。当我想把“好的”或“最好的”链接分类时,我就可以使用像Facebook上的计数或者推特上的转发计数。但有些社区拥有庞大的用户群,因此他们的链接得到了更多的喜爱或转发。我如何“正常化”这些庞大的社区喜欢的,例如,类似的新闻链接,一个小得多的社区,谁有更少的计数?
顺便问一下,这叫正常化吗?在什么样的书中,我能学到这类关于“质量”的算法(例如,在本文中)?不管怎么说,我想做的是什么?
Thnx。
发布于 2014-02-05 15:16:04
您可以尝试这种线性回归:
Quality_of_link = alfa + B1*Number_of_links + B2*User_base +错误项。
要确定因变量(B1、User_base)的参数(Number_of_links、User_base),可以使用历史数据(number_of_links;user_base;链接质量),并通过运行线性回归来估计参数的值。你可以在一个静态程序中完成这个任务。良好的静态程序包括R项目和SPSS。
在这方面重要的是确定Quality_of_link的客观方法。我认为你可以做一个测试,通过评级的一些链接,更好的目标受众的网站。然后使用一个标度(例如0-100)给链接的平均值。
在测试阶段运行回归之后,您可以在最终模型中使用它。然后是: Quality_of_link = alfa + B1*Number_of_links + B2*User_base。然后,您可以使用上面的一个Quility_of_link,70以上是一个好链接,高于90个最佳链接。
对于好的教科书来说,很难把你指给你看一本我自己还没读过的书。如果有些知识需要更新,我首先建议使用您已经使用过的知识。
希望这能有所帮助。成功完成你的项目。
发布于 2014-02-04 19:34:44
是的,这叫做标准化或标准化。
您可以计算一篇文章的“喜欢”数的Z分†,这样比较是公平的。Z-分数是指一个值高于平均值的标准差数.
您可能在https://stats.stackexchange.com/上得到一些更好的建议。
祝好运!
†如果你是抽样,你应该使用T-统计数字代替.
https://stackoverflow.com/questions/21554301
复制相似问题