我正在努力学习大众如何根据卧室、浴室、面积和其他特征来预测房价。我的训练数据示例行是:
68000 '51-OMAHA-CT| city=SACRAMENTO zip=95823 state=CA beds:3 baths:1 sq__ft:1167 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.478902 longitude=-121.431028
56333 '3526-HIGH-ST| city=SACRAMENTO zip=95838 state=CA beds:2 baths:1 sq__ft:836 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.631913 longitude=-121.434879
68790 '2796-BRANCH-ST| city=SACRAMENTO zip=95815 state=CA beds:2 baths:1 sq__ft:796 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.618305 longitude=-121.443839普莱斯街| ...总共有大约500条记录。我的测试数据是(也有大约500条记录):
'51-OMAHA-CT| city=SACRAMENTO zip=95823 state=CA beds:3 baths:1 sq__ft:1167 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.478902 longitude=-121.431028
'3526-HIGH-ST| city=SACRAMENTO zip=95838 state=CA beds:2 baths:1 sq__ft:836 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.631913 longitude=-121.434879
'2796-BRANCH-ST| city=SACRAMENTO zip=95815 state=CA beds:2 baths:1 sq__ft:796 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.618305 longitude=-121.443839预测给出了以下值:
4819.900391 51-OMAHA-CT
4609.826172 3526-HIGH-ST
4537.140137 2796-BRANCH-ST这些都不是正确的预测。我不确定我的训练数据是否有问题?我仍然对char和位置特性感到困惑。
发布于 2019-05-28 21:45:06
当您将一个特征构建为city=SACRAMENTO时,VW会将其解释为一个名称为city=SACRAMENTO的字符串特征,并为其分配隐含的1.0值。city=SACRAMENTO是散列的,这形成了该特征的索引。
当您将特征构建为beds:2时,大众会将其解释为名称为beds且特征值为2.0的特征。beds被散列并形成索引。
因此,可以将表单__=__中的特性看作是枚举,或者是离散集中的值。如果你有连续的特征,那么就应该使用浮点值。
对于城市名称,使用__=__格式似乎很好,但是当您对纬度和经度使用相同的格式时,另一个示例不太可能共享完全相同的经纬度/lng字符串,以便能够在预测中使用该特性。在我看来,lat/lng应该是基于浮动的特性。
对于sale_date,您也有类似的问题。这可能更像是一种功能工程,但您可能希望将此功能拆分为年、星期、月等。
https://stackoverflow.com/questions/56324008
复制相似问题