我需要创建一个机器学习模型来预测一个结构是酒店还是公寓。我还有一个数据集的结构:
ID | STATE | ROOM | BEDROOMS | COMFORT | CARD_ACCEPTED | CONGRESS | OUTPUT
0 | ITALY | 3 | 5 | Park, Pool, Disco | Visa, Mastercard | Number rooms 3, Min capacity 3, Max Capacity 110 | Hotel
1 | USA | 2 | 2 | Park, Pool | | | Apartment
2 | ARG | 1 | 4 | | Visa | Number rooms 1, Min capacity 3, Max Capacity 20 | Hotel我想在上面测试不同的机器学习方法,所以我想做的第一件事就是对数据进行预处理。我的想法是将CARD_ACCEPTED和COMFORT.Park等列分开,这样我就可以把它们转换成数字,而不是范畴变量。我的问题与国会专栏有关,因为它有一些不太适合舒适和CARD_ACCEPTED的数据。我应该采用什么归一化方法呢?
发布于 2021-11-05 15:03:53
我会对STATE、COMFORT和CARD_ACCEPTED进行一次热编码,并将CONGRESS中的字符串解析为三列:NUMROOMS、MINCAP、MAXCAP。
对于你所有的热门专栏,你不需要正常化。对于所有的数值,您可以引用这个堆叠问题
https://datascience.stackexchange.com/questions/103854
复制相似问题