我正在为R中的多个数据补偿包而苦苦挣扎,需要您的建议。
我有一个150.000行270列的数据集。
每一列都有一些缺失的数据,但我只需要对其中的7列进行估算。我需要在填充这7列时考虑所有的列。没有数字数据,只有字符串。
我试过使用鼠标,但由于中断,耗时太长,没有给出任何结果。我相信我的编码完全错了。
A | B | C | D | E |
------------------------------------------------------------------------
DEEP DIGGING ALL | 1989 | Digging | Sumer | Cups |
SURFACE DIGGING | 1989 | N/A | Sumer | Glasses |
CLAIMS OFFSHORE | 1990 | N/A | Assyria | N/A |
OFFSHORE CLAIMS | 1990 | Offshore | Assyria | N/A |
CLAIMS OFFSHORE | 1990 | Offshore | Assyria | Cups |
OFFSHORE CLAIMS | 1990 | Offshore | Assyria | Cups |我试图得到的是表,其中列"C“是根据所有列计算的,但列"E”中的N/As被忽略。
理想的结果:
A | B | C | D | E |
------------------------------------------------------------------------
DEEP DIGGING ALL | 1989 | Digging | Sumer | Cups |
SURFACE DIGGING | 1989 | Digging | Sumer | Glasses |
CLAIMS OFFSHORE | 1990 | Offshore | Assyria | N/A |
OFFSHORE CLAIMS | 1990 | Offshore | Assyria | N/A |
CLAIMS ONSHORE | 1990 | Offshore | Assyria | Cups |
OFFSHORE CLAIMS | 1990 | Offshore | Assyria | Cups |我不确定“鼠标”是否是好的途径,但我在"missForest“中的尝试没有取得任何进展。所以我真的很依赖你的帮助。
首先要感谢大家!
发布于 2020-01-30 01:45:16
我们可以从tidyr使用fill
library(dplyr)
library(tidyr)
df1 %>%
group_by(B) %>%
fill(C, .direction = 'updown')https://stackoverflow.com/questions/59972721
复制相似问题