问Hashing技巧-实际发生了什么？
EN

Data Science用户

提问于 2014-10-10 03:48:54

回答 1查看 5.2K关注 0票数 12

当ML算法，例如Vowpal Wabbit或一些赢得点击速率竞争(卡格尔)的分解机器时，提到特性是‘散列’，这对模型到底意味着什么？假设有一个变量表示internet add的ID，它接受诸如'236BG231‘这样的值。然后，我理解这个特性被散列为一个随机整数。但是，我的问题是：

回答已采纳

发布于 2014-10-11 19:48:20

第二个项目是特性散列中的值。散列和一个热编码的稀疏数据节省空间。取决于散列，您可以有不同程度的碰撞，这是一种降维。

此外，在特定的Kaggle特性哈希和一个热编码帮助功能扩展/工程，通过采取所有可能的元组(通常只是二次，但有时是第三次)的特性，然后散列的碰撞，明确地创建交互往往是预测的，而个别的特性不是。

在大多数情况下，这种结合特征选择和弹性网络正则化的技术在LR中的作用非常类似于一个隐层神经网络，因此在竞争中表现很好。

票数 8

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/1244

复制

相似问题

问Hashing技巧-实际发生了什么？EN