文章/答案/技术大牛

发布

社区首页 >问答首页 >小鼠归因的运行时间估算？

问小鼠归因的运行时间估算？
EN

Stack Overflow用户

提问于 2021-04-06 08:09:23

回答 1查看 297关注 0票数 0

我使用了老鼠的估算来填充机器学习数据集中丢失的值。数据集是巨大的，11726412行和30列。以下是此数据中缺少的值数：

In [2]:X.isnull().sum()

Out[2]: 
time                           0
count_neshan                   0
count_scat_o             4059792
count_avl_en_o           7364664
count_avl_ex_o           7364664
count_anpr_o             9646200
karmnd_dr_mhl_shghl_o          0
veh_own_o                      0
n_bussi_unit_o                 0
park_area_o                    0
area_o                         0
office_land_use_o              0
n_office_o                     0
commercial_unit_o              0
n_commercial_o                 0
schl_o                         0
count_scat_d             4059792
count_avl_en_d           7364664
count_avl_ex_d           7364664
count_anpr_d             9646200
karmnd_dr_mhl_shghl_d          0
veh_own_d                      0
n_bussi_unit_d                 0
park_area_d                    0
area_d                         0
office_land_use_d              0
n_office_d                     0
commercial_unit_d              0
n_commercial_d                 0
schl_d                         0
dtype: int64

我运行这段代码是为了在dataset中计算缺少的值：

from impyute.imputation.cs import mice

imputed_train_data = mice(X.values)

这是我第一次使用老鼠，我不知道跑步所需的时间。我8天前执行了这个代码，现在它还在运行。

关于老鼠的运行时间，我什么也找不到。我只知道“很慢”。如果有经验的人能够估计时间或建议一个更快的选择，考虑到大数据集，我将不胜感激。

missing-data

imputation

python

machine-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-04-06 11:06:18

根据文档的说法，mice一直运行到收敛，而收敛的定义是上连续更新之间的变化小于10%，所有计算值都会发生变化。这意味着当它停止时，它是不可预测的。我的直觉会说，假设更新的无小于10%的概率会变得非常小，并且会丢失大量的值。

考虑到源代码实际上相当简单，您可以编写自己的版本来限制迭代次数。来文中似乎有一条评论实际上表明，在某些情况下，最初的实现就是这样的：

步骤5:重复步骤2-4直到收敛( 100是任意的)

您可以用while all(converged):替换for _ in range(max_iterations):。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66964897

复制

相似问题

问小鼠归因的运行时间估算？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问小鼠归因的运行时间估算？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问小鼠归因的运行时间估算？
EN