我想使用Gini()从DescTools中计算基尼系数(因为它提供了一种用权重、置信区间等来计算“无偏”基尼系数的简便方法),但是当我使用这个函数时,当我使用“大”样本时,会出现一些错误。DescTools")Gini(x1) #Here I use the Gini function without any parameters, and
我有一个特定于数据集的问题,需要使用gini_index以外的拆分函数。这要求我从头开始重写一个决策树。我有一个工作模式,但效率很低。为了进行拆分,我目前对每个特性进行迭代,然后遍历该数据集中的每个节点的每个唯一数据点(节点总数x特性x唯一级别gini计算)。因为我的DT在300 k X 145数据集上已经运行了2天。
我有一个函数"compute_gini“,有4个输入。我希望它运行200次,但每次运行时,拆分的输入值应该增加1。compute_gini(df , var , 1 , minsplit)compute_gini(df , var , 3, minsplit)
compute_gini(df , var , 4 , min