首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Catboost中的大型稀疏数据集

Catboost中的大型稀疏数据集
EN

Data Science用户
提问于 2017-10-31 23:37:02
回答 2查看 1.3K关注 0票数 3

我有一个大的稀疏数据矩阵(包字,超过大量的条目)。在sklearn模型(如RandomForest )中,我可以很容易地将其视为稀疏矩阵。但是,如果我想使用Catboost,我需要将它转化为一个稠密矩阵。我想知道是否有任何有效的方法来处理Catboost,这不会导致这种情况吗?例如,任何内部内置的特性,比如TFRecords of Tensorflow,都可以加载细菌.

EN

回答 2

Data Science用户

发布于 2021-06-01 08:59:43

  1. 稀疏的根源是什么?例如,你用过一个热编码器吗?如果是这样的话--当涉及到使用boosting算法时,您不需要这样做,所以请返回并用原始数据为boosting提供信息。
  2. 你总是可以有一个自动编码器来在TensorFlow中密集你的稀疏矩阵,并对结果运行一个增强算法。在这种方法中有两个凹坑下降,1)增强算法与连续值不太好,这是自动编码器的结果;2)您的自动编码器是一种近似方法,当然,这是在误差模型中添加的。
  3. 考虑设计你自己的网络架构,它结合了增强和自动编码器。例如,几个层来密集你的稀疏矩阵,然后一个类似于https://www.tensorflow.org/tutorials/estimator/boosted_乔木的助推树分类器--当你这样做的时候,请更新这个答案。
票数 0
EN

Data Science用户

发布于 2023-03-30 08:50:27

这是一个老问题,但从catboost 0.17开始,支持稀疏矩阵。

pandas.SparseDataFramescipy.sparse.spmatrix可以输入为更新的文件中描述的特性X。

希望这能有所帮助!

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/24238

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档