当ML算法,例如Vowpal Wabbit或一些赢得点击速率竞争(卡格尔)的分解机器时,提到特性是‘散列’,这对模型到底意味着什么?假设有一个变量表示internet add的ID,它接受诸如'236BG231‘这样的值。然后,我理解这个特性被散列为一个随机整数。但是,我的问题是:
发布于 2014-10-11 19:48:20
第二个项目是特性散列中的值。散列和一个热编码的稀疏数据节省空间。取决于散列,您可以有不同程度的碰撞,这是一种降维。
此外,在特定的Kaggle特性哈希和一个热编码帮助功能扩展/工程,通过采取所有可能的元组(通常只是二次,但有时是第三次)的特性,然后散列的碰撞,明确地创建交互往往是预测的,而个别的特性不是。
在大多数情况下,这种结合特征选择和弹性网络正则化的技术在LR中的作用非常类似于一个隐层神经网络,因此在竞争中表现很好。
https://datascience.stackexchange.com/questions/1244
复制相似问题