我有一个社会媒体帖子的数据集,并希望预测“拇指向上”的数量,随着时间的推移,它将收到。
+---------+----------------+-----------+----------------+-----+-------+
| Post_id | Timestamp | Follows | Comments_count | ... | Likes |
+---------+----------------+-----------+----------------+-----+-------+
| 01 | 12-04-16 14:00 | 34 | 4 | | 23 |
+---------+----------------+-----------+----------------+-----+-------+
| 01 | 12-04-16 14:35 | 35 | 7 | | 34 |
+---------+----------------+-----------+----------------+-----+-------+
| | ... | | | | |
+---------+----------------+-----------+----------------+-----+-------+
| 02 | 12-04-16 14:02 | 134 | 5 | | 36 |
+---------+----------------+-----------+----------------+-----+-------+
| 02 | 12-04-16 14:45 | 136 | 23 | | 123 |
+---------+----------------+-----------+----------------+-----+-------+类似量随时间的变化看起来像是f(x) = sqrt(x)
我的方法是为每个帖子创建一个多变量多项式回归,并以某种方式集成/平均它们。
发布于 2016-09-17 01:55:50
当每个组件分类器的决策规则不同并提供补充信息时,总体分类效果更好。
因此,问题是:您能否设置您的组件分类器,使它们的决策规则不同,并根据特征空间相互补充?例如,Post 1是否与Post 2有显著不同的特征空间?如果是这样的话,合奏方法应该是有益的。
哪种技术?如果您可以对每个分类器进行高度培训,并使其成为特征空间不同区域的专家,请尝试模型:
发布于 2016-09-15 14:52:24
您可以在发布后的特定时间选择几个时间窗口,并尝试在此基础上进行倒退。由于是计数数据,显然的选择是将结果建模为泊松计数过程。有多个模型可以自己做这一点,一些广义线性模型,也有具有一定损失函数的神经网络。另一种选择是对喜欢这篇文章的追随者比例进行建模。这可能更容易概括,但有一小部分帖子是‘病毒’以外,他们自己的追随者。无论如何,这将是很难建模的,而且您可以将这些实例剪短到1的一小部分。
https://datascience.stackexchange.com/questions/14012
复制相似问题