我试图预测地震后建筑物的破坏,数据集中包含“区域编号”作为特征。我认为这个特性在预测标签方面有着重要的意义,但我不知道如何最好地表示它。
有什么想法吗?
发布于 2018-07-30 20:10:04
你可以随心所欲地发挥创造力,但这里有两种对我有用的一般方法。
你选择如何增加这些信息取决于你到底想要预测什么。
发布于 2018-07-30 20:23:41
假设地区数字在它们所代表的事物中是绝对的,而不是序数,那么区域数字应该被表示为一个分类特征。最简单的方法是使用n个二进制变量来表示每个可能的区域。
为了提高结果,我也会尝试找到一个间隔类型的特性,比如纬度和经度。
https://datascience.stackexchange.com/questions/36220
复制相似问题