我试图寻找方法来聚合和找到从模拟中输出的定性数据的平均值。
有20个定性度量,每个不均匀地分为4个周期标记为1-4。我想找出哪个桶是最便宜的?我不能简单地取平均数,因为如果大多数标为1和4,就会产生问题,平均数不可能是2.5。
我会说,1与它旁边的数字,4和2密切相关(因为它是一个循环)。所以,在我前面的例子中,2.5的答案是更不正确的,因为它说平均周期与大多数定性数据是相反的。
我在研究细胞周期预测,并认为这可能是类似的事情。
发布于 2022-08-30 09:11:31
如果这些特征被认为是绝对的,那么把这些值看作是A,B,C,D。在这种情况下没有可能的平均值,最常见的聚合方式是选择模式,即在数据中获得最大频率的值。
显然,这些值可能是序数的,即它们不是连续的,而是有顺序的。有时这些都被视为数字,这取决于应用程序。
https://datascience.stackexchange.com/questions/113931
复制相似问题