我有一个数据集,其中输入是ICU病人的数据集,每个ICU住院有40个特征(20个生命周期,20个实验室值)和多个时间步骤(停留时间在6到19个步骤之间)。输出是20个实验室值(以二进制数字表示,其中1表示实验室值在范围内,0超出范围)。任务是预测输入ICU驻留的未来输出。我试着把它变成一个序列排序问题,在这个问题中,输出是一个通过一次步骤移动的序列。然而,结果还不够好。问题是有办法更好地解决这个问题吗?(比如开窗?)
发布于 2021-02-03 01:04:32
由于我看不到数据,也不能完全理解数据格式,所以我只是给出一些一般性的建议。但首先,我应该指出,将每个输出(每个20元素数组)视为timeseries序列是没有意义的,除非它们之间有一个优先级(我的意思是,如果您知道某个特定的实验室值是先于其他的)。
因此,如果您有20元素的二进制数字数组作为输出,您可能会发现没有两个输出完全相同,或者只有几个输出完全相同的观测结果(因为您可以使用2^{20}组合!)。所以,假设你有N个观测,你也可以看到N个不同的输出阵列。因此,您可以首先将标签集群到k组中,并为每个组分配新的标签(第一组的标签是i)。然后,找到查询与每个组之间最接近的距离,这样就可以找到适当的类。然后,您可以预测数组格式的输出(例如,假设您意识到您的查询属于一个由20个成员组成的组)。因此,您可以说,输出是输出数组的期望值。因此,例如,20元素输出数组的第一个元素可能是0.9。或者,您可以更加精确,在找到适当的组之后,根据查询与成员之间的距离定义一个权重,并找到该组的输出数组的加权平均值!
https://datascience.stackexchange.com/questions/88829
复制相似问题