问数据预处理的最佳方法
EN

Data Science用户

提问于 2021-11-05 14:52:48

回答 1查看 55关注 0票数 2

我需要创建一个机器学习模型来预测一个结构是酒店还是公寓。我还有一个数据集的结构：

ID | STATE  | ROOM | BEDROOMS |       COMFORT      |   CARD_ACCEPTED  |                   CONGRESS                          | OUTPUT
0  | ITALY  |   3  |    5     |  Park, Pool, Disco | Visa, Mastercard |  Number rooms 3, Min capacity 3, Max Capacity 110   | Hotel
1  | USA    |   2  |    2     |  Park, Pool        |                  |                                                     | Apartment
2  | ARG    |   1  |    4     |                    | Visa             |  Number rooms 1, Min capacity 3, Max Capacity 20    | Hotel

我想在上面测试不同的机器学习方法，所以我想做的第一件事就是对数据进行预处理。我的想法是将CARD_ACCEPTED和COMFORT.Park等列分开，这样我就可以把它们转换成数字，而不是范畴变量。我的问题与国会专栏有关，因为它有一些不太适合舒适和CARD_ACCEPTED的数据。我应该采用什么归一化方法呢？

dataset

data

bigdata

preprocessing

回答 1

Data Science用户

发布于 2021-11-05 15:03:53

我会对STATE、COMFORT和CARD_ACCEPTED进行一次热编码，并将CONGRESS中的字符串解析为三列：NUMROOMS、MINCAP、MAXCAP。

对于你所有的热门专栏，你不需要正常化。对于所有的数值，您可以引用这个堆叠问题

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/103854

复制

相似问题

问数据预处理的最佳方法
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据预处理的最佳方法EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据预处理的最佳方法
EN