首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Vowpal Wabbit上下文Bandit数据格式

Vowpal Wabbit上下文Bandit数据格式
EN

Stack Overflow用户
提问于 2017-01-16 22:51:50
回答 1查看 546关注 0票数 5

我有两个问题,为背景强盗模型培训格式化数据。

如果我有如下数据..。

代码语言:javascript
复制
1:1:0.2 | d1:us d2:female d3:12

问题1)我从VW上读到,每个特性后面都有一个浮点。如果我有明确的特征(如我们,女性)作为价值观,什么是最好的方式重新格式化他们?我在想,我不会用浮点数作为后缀,让它们的默认值为1,我希望这样可以实现一次热编码。

问题2)我错误地训练了模型,记录了如下的数据

代码语言:javascript
复制
1:1:0.2 | us female 12 

我现在意识到“我们”、“女性”和"12“被视为默认值为1的特性,对吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-01-17 01:41:40

是的,你是对的。

输入功能格式是:将每个特性分隔为<name>:<value>,其中:<value> (如果存在)必须是数字的。

要表示分类值,可以使用:以外的其他内容作为<name><value>之间的分隔符。在这种情况下,整个字符串将被视为特性名。这通常被称为“一次热编码”(每个可能的feature+value组合都被视为一个单独的特性)。

还要注意的是,特性名12将由vw直接散列到哈希表中的12槽(模2^位),假设这是用户所想要的,因为数字特性是常见的(并且是libSVM约定)。这可以通过命令行上的选项--hash all来禁用。默认情况下,--hash strings的意思是:(murmur3)散列特性--名称看起来像字符串(不是整数),但不要使用看起来像数字的特性名(不要散列)。

请参见:https://stackoverflow.com/a/28643968/1296044,它包括一个用于在vw中表示输入特性的备忘单。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41686315

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档