我正在使用英国的房价数据集,并希望创建一个ML模型来预测基于城市(加上其他一些类别)的房价。
作为这一切的新手,我被难住了。我可以创建具有连续变量的模型,甚至可以对其他一些有4个不同选项(例如房屋类型)的类别执行一次性编码(虚拟变量)。
然而,当涉及到城市时,数据集中大约有1200个不同的城市,所以我不确定如何设计数据来处理这一问题。
非常感谢任何对此有任何想法的人!
不管我搜索了多少次,我都找不到答案,但这可能是因为我不知道到底要搜索什么。
发布于 2020-07-04 00:05:27
对我来说,你需要在每个城市有一个城市等级和一个房子的价格。
例如:
Country | City Grade
------------+------------
Los Angeles | 1
New York | 4
House | Price
------------+------------
Option1 | $200,000
Option2 | $300,000然后根据城市等级乘以房价*城市等级计算出房价。
因此,这意味着在洛杉矶的Option1房子仍然是20万美元,但在纽约将是120万美元。
你不需要担心1200个城市,它很容易在数据库中查询。
https://stackoverflow.com/questions/62718526
复制相似问题