首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hashing技巧-实际发生了什么?

Hashing技巧-实际发生了什么?
EN

Data Science用户
提问于 2014-10-10 03:48:54
回答 1查看 5.2K关注 0票数 12

当ML算法,例如Vowpal Wabbit或一些赢得点击速率竞争(卡格尔)的分解机器时,提到特性是‘散列’,这对模型到底意味着什么?假设有一个变量表示internet add的ID,它接受诸如'236BG231‘这样的值。然后,我理解这个特性被散列为一个随机整数。但是,我的问题是:

  • 模型中现在使用的整数,作为整数(数值)或
  • 哈希值实际上仍然被视为一个分类变量和一个热编码的变量吗?因此,哈希技巧仅仅是以某种方式节省大数据的空间?
EN

回答 1

Data Science用户

回答已采纳

发布于 2014-10-11 19:48:20

第二个项目是特性散列中的值。散列和一个热编码的稀疏数据节省空间。取决于散列,您可以有不同程度的碰撞,这是一种降维。

此外,在特定的Kaggle特性哈希和一个热编码帮助功能扩展/工程,通过采取所有可能的元组(通常只是二次,但有时是第三次)的特性,然后散列的碰撞,明确地创建交互往往是预测的,而个别的特性不是。

在大多数情况下,这种结合特征选择和弹性网络正则化的技术在LR中的作用非常类似于一个隐层神经网络,因此在竞争中表现很好。

票数 8
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/1244

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档