问Catboost中的大型稀疏数据集
EN

Data Science用户

提问于 2017-10-31 23:37:02

回答 2查看 1.3K关注 0票数 3

我有一个大的稀疏数据矩阵(包字，超过大量的条目)。在sklearn模型(如RandomForest )中，我可以很容易地将其视为稀疏矩阵。但是，如果我想使用Catboost，我需要将它转化为一个稠密矩阵。我想知道是否有任何有效的方法来处理Catboost，这不会导致这种情况吗？例如，任何内部内置的特性，比如TFRecords of Tensorflow，都可以加载细菌.

scikit-learn

回答 2

Data Science用户

发布于 2021-06-01 08:59:43

稀疏的根源是什么？例如，你用过一个热编码器吗？如果是这样的话--当涉及到使用boosting算法时，您不需要这样做，所以请返回并用原始数据为boosting提供信息。
你总是可以有一个自动编码器来在TensorFlow中密集你的稀疏矩阵，并对结果运行一个增强算法。在这种方法中有两个凹坑下降，1)增强算法与连续值不太好，这是自动编码器的结果；2)您的自动编码器是一种近似方法，当然，这是在误差模型中添加的。
考虑设计你自己的网络架构，它结合了增强和自动编码器。例如，几个层来密集你的稀疏矩阵，然后一个类似于https://www.tensorflow.org/tutorials/estimator/boosted_乔木的助推树分类器--当你这样做的时候，请更新这个答案。

票数 0

Data Science用户

发布于 2023-03-30 08:50:27

这是一个老问题，但从catboost 0.17开始，支持稀疏矩阵。

pandas.SparseDataFrame或scipy.sparse.spmatrix可以输入为更新的文件中描述的特性X。

希望这能有所帮助！

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/24238

复制

相似问题

问Catboost中的大型稀疏数据集
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Catboost中的大型稀疏数据集EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Catboost中的大型稀疏数据集
EN