首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据预处理的最佳方法

数据预处理的最佳方法
EN

Data Science用户
提问于 2021-11-05 14:52:48
回答 1查看 55关注 0票数 2

我需要创建一个机器学习模型来预测一个结构是酒店还是公寓。我还有一个数据集的结构:

代码语言:javascript
复制
ID | STATE  | ROOM | BEDROOMS |       COMFORT      |   CARD_ACCEPTED  |                   CONGRESS                          | OUTPUT
0  | ITALY  |   3  |    5     |  Park, Pool, Disco | Visa, Mastercard |  Number rooms 3, Min capacity 3, Max Capacity 110   | Hotel
1  | USA    |   2  |    2     |  Park, Pool        |                  |                                                     | Apartment
2  | ARG    |   1  |    4     |                    | Visa             |  Number rooms 1, Min capacity 3, Max Capacity 20    | Hotel

我想在上面测试不同的机器学习方法,所以我想做的第一件事就是对数据进行预处理。我的想法是将CARD_ACCEPTED和COMFORT.Park等列分开,这样我就可以把它们转换成数字,而不是范畴变量。我的问题与国会专栏有关,因为它有一些不太适合舒适和CARD_ACCEPTED的数据。我应该采用什么归一化方法呢?

EN

回答 1

Data Science用户

发布于 2021-11-05 15:03:53

我会对STATECOMFORTCARD_ACCEPTED进行一次热编码,并将CONGRESS中的字符串解析为三列:NUMROOMSMINCAPMAXCAP

对于你所有的热门专栏,你不需要正常化。对于所有的数值,您可以引用这个堆叠问题

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103854

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档