做一个ML项目来预测我播客中的某个播客集的收听次数,我的播客将在头28天获得。
问题是,当我第一次开始录制播客的时候,播客将在头28天内获得70次收听,而现在是2年后,仅仅基于播客比我刚开始时更受欢迎的事实,它就可能获得200次收听。
你如何解释这一变化,而没有模式不公平的权重是最现代的插曲?
例如:
Date, Category, Listens, Day Published
Aug 2020, Science, 70, Monday
Aug 2022, Topical, 200, Tuesday我担心第二行特性将被学习到与更高的listens...even更相关,尽管这可能只是基于整个播客更受欢迎这一事实。
发布于 2022-03-13 21:32:16
一个非常简单的方法是基于移动平均值的值标准化。
例如,计算过去6个月中每个播客的平均avg数量,即取决于播客的日期。然后将原始侦听数替换为与avg相比的相对速率,即rate = (listens - avg) / avg。示例:
当然,您可以根据数据的意义来调整移动平均值的计算。如果播客不是很有规律,您可以使用最后的N个播客,而不是最后的N个月。
https://datascience.stackexchange.com/questions/108958
复制相似问题