通过使用N哈希函数并连接输出，可以通过N增加结果稀疏矩阵中的n_features和非空项(nnz)的数量。换句话说，每个令牌现在将被表示为N个元素。这是相当浪费记忆的智慧。此外，由于稀疏数组计算的运行时间直接依赖于nnz (而对n_features的依赖程度较小)，这将比只增加n_features具有更大的负面性能影响。我不确定这种方法在实践中是否很有用。

如果您仍然想要实现这样的向量器，下面是一些注释。

因为FeatureHasher是用Cython实现的，所以如果不编辑/重新编译代码，就很难从Python修改它的功能。
编写一个快速的纯python实现HashingVectorizer可能是一种方法。
否则，在HashingVectorizer包中会有某种实验性的文本矢量化重新实现。因为它是用Rust编写的(带有Python )，所以其他哈希函数很容易访问和可能被添加。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53767469

复制

相似问题

问利用HashEmbeddings的思想与sklearn的HashingVectorizer
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用HashEmbeddings的思想与sklearn的HashingVectorizerEN