首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >VowpalWabbit错误的预测。如何恰当地准备学习数据?

VowpalWabbit错误的预测。如何恰当地准备学习数据?
EN

Stack Overflow用户
提问于 2019-05-27 18:12:37
回答 1查看 119关注 0票数 1

我正在努力学习大众如何根据卧室、浴室、面积和其他特征来预测房价。我的训练数据示例行是:

代码语言:javascript
复制
68000 '51-OMAHA-CT| city=SACRAMENTO zip=95823 state=CA beds:3 baths:1 sq__ft:1167 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.478902 longitude=-121.431028
56333 '3526-HIGH-ST| city=SACRAMENTO zip=95838 state=CA beds:2 baths:1 sq__ft:836 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.631913 longitude=-121.434879
68790 '2796-BRANCH-ST| city=SACRAMENTO zip=95815 state=CA beds:2 baths:1 sq__ft:796 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.618305 longitude=-121.443839

普莱斯街| ...总共有大约500条记录。我的测试数据是(也有大约500条记录):

代码语言:javascript
复制
'51-OMAHA-CT| city=SACRAMENTO zip=95823 state=CA beds:3 baths:1 sq__ft:1167 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.478902 longitude=-121.431028
'3526-HIGH-ST| city=SACRAMENTO zip=95838 state=CA beds:2 baths:1 sq__ft:836 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.631913 longitude=-121.434879
'2796-BRANCH-ST| city=SACRAMENTO zip=95815 state=CA beds:2 baths:1 sq__ft:796 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.618305 longitude=-121.443839

预测给出了以下值:

代码语言:javascript
复制
4819.900391 51-OMAHA-CT
4609.826172 3526-HIGH-ST
4537.140137 2796-BRANCH-ST

这些都不是正确的预测。我不确定我的训练数据是否有问题?我仍然对char和位置特性感到困惑。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-28 21:45:06

当您将一个特征构建为city=SACRAMENTO时,VW会将其解释为一个名称为city=SACRAMENTO的字符串特征,并为其分配隐含的1.0值。city=SACRAMENTO是散列的,这形成了该特征的索引。

当您将特征构建为beds:2时,大众会将其解释为名称为beds且特征值为2.0的特征。beds被散列并形成索引。

因此,可以将表单__=__中的特性看作是枚举,或者是离散集中的值。如果你有连续的特征,那么就应该使用浮点值。

对于城市名称,使用__=__格式似乎很好,但是当您对纬度和经度使用相同的格式时,另一个示例不太可能共享完全相同的经纬度/lng字符串,以便能够在预测中使用该特性。在我看来,lat/lng应该是基于浮动的特性。

对于sale_date,您也有类似的问题。这可能更像是一种功能工程,但您可能希望将此功能拆分为年、星期、月等。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56324008

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档