我使用了老鼠的估算来填充机器学习数据集中丢失的值。数据集是巨大的,11726412行和30列。以下是此数据中缺少的值数:
In [2]:X.isnull().sum()
Out[2]:
time 0
count_neshan 0
count_scat_o 4059792
count_avl_en_o 7364664
count_avl_ex_o 7364664
count_anpr_o 9646200
karmnd_dr_mhl_shghl_o 0
veh_own_o 0
n_bussi_unit_o 0
park_area_o 0
area_o 0
office_land_use_o 0
n_office_o 0
commercial_unit_o 0
n_commercial_o 0
schl_o 0
count_scat_d 4059792
count_avl_en_d 7364664
count_avl_ex_d 7364664
count_anpr_d 9646200
karmnd_dr_mhl_shghl_d 0
veh_own_d 0
n_bussi_unit_d 0
park_area_d 0
area_d 0
office_land_use_d 0
n_office_d 0
commercial_unit_d 0
n_commercial_d 0
schl_d 0
dtype: int64我运行这段代码是为了在dataset中计算缺少的值:
from impyute.imputation.cs import mice
imputed_train_data = mice(X.values)这是我第一次使用老鼠,我不知道跑步所需的时间。我8天前执行了这个代码,现在它还在运行。
关于老鼠的运行时间,我什么也找不到。我只知道“很慢”。如果有经验的人能够估计时间或建议一个更快的选择,考虑到大数据集,我将不胜感激。
发布于 2021-04-06 11:06:18
https://stackoverflow.com/questions/66964897
复制相似问题