首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据归一化

数据归一化
EN

Stack Overflow用户
提问于 2014-02-04 13:47:45
回答 2查看 188关注 0票数 1

我是在BI和BD非常新,但希望有一些方向以下。当我想把“好的”或“最好的”链接分类时,我就可以使用像Facebook上的计数或者推特上的转发计数。但有些社区拥有庞大的用户群,因此他们的链接得到了更多的喜爱或转发。我如何“正常化”这些庞大的社区喜欢的,例如,类似的新闻链接,一个小得多的社区,谁有更少的计数?

顺便问一下,这叫正常化吗?在什么样的书中,我能学到这类关于“质量”的算法(例如,在本文中)?不管怎么说,我想做的是什么?

Thnx。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-02-05 15:16:04

您可以尝试这种线性回归:

Quality_of_link = alfa + B1*Number_of_links + B2*User_base +错误项。

要确定因变量(B1、User_base)的参数(Number_of_links、User_base),可以使用历史数据(number_of_links;user_base;链接质量),并通过运行线性回归来估计参数的值。你可以在一个静态程序中完成这个任务。良好的静态程序包括R项目和SPSS。

在这方面重要的是确定Quality_of_link的客观方法。我认为你可以做一个测试,通过评级的一些链接,更好的目标受众的网站。然后使用一个标度(例如0-100)给链接的平均值。

在测试阶段运行回归之后,您可以在最终模型中使用它。然后是: Quality_of_link = alfa + B1*Number_of_links + B2*User_base。然后,您可以使用上面的一个Quility_of_link,70以上是一个好链接,高于90个最佳链接。

对于好的教科书来说,很难把你指给你看一本我自己还没读过的书。如果有些知识需要更新,我首先建议使用您已经使用过的知识。

希望这能有所帮助。成功完成你的项目。

票数 0
EN

Stack Overflow用户

发布于 2014-02-04 19:34:44

是的,这叫做标准化或标准化。

您可以计算一篇文章的“喜欢”数的Z分†,这样比较是公平的。Z-分数是指一个值高于平均值的标准差数.

您可能在https://stats.stackexchange.com/上得到一些更好的建议。

祝好运!

†如果你是抽样,你应该使用T-统计数字代替.

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21554301

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档