我尝试根据ID和辅助ID合并两个数据文件。以下是两个数据文件的示例:
First ID Second ID Company
10056526008010 0.000000e+00 Company A
10022337820851 8.152050e+11 Company B
722337820853 8.152050e+11 Company C
10056526008010 0.000000e+00 Company E
10022337820851 6.290250e+11 Company DFirst ID Second ID Company Availability
878968000512 0.000000e+00 Company F Y
10022337820851 8.152050e+11 Company B Y
10022337820851 8.152050e+11 Company B Y
722337820853 8.152050e+11 Company C N
10056526008010 0.000000e+00 Company E N
10056526008010 0.000000e+00 Company G N
10022337820851 6.290250e+11 Company D Y我希望能够根据第一个ID与第一个ID的匹配进行合并,然后检查二级ID是否匹配,如果匹配,则应该合并,如果不匹配,则不应该合并(我怀疑需要内部合并)。如果次要ID为0,则应执行公司名称的模糊匹配。有办法这样做吗?所需的输出如下所示:
First ID Second ID Company Availability
10022337820851 8.152050e+11 Company B Y
722337820853 8.152050e+11 Company C N
10056526008010 0.000000e+00 Company E N
10056526008010 0.000000e+00 Company G N
10022337820851 6.290250e+11 Company D Y这样,首先根据第一个ID匹配2个数据,然后使用第二个ID检查重复的ID,如果第二个ID为0时,将执行基于Company的类似匹配。如果第二个ID或Company没有匹配,那么该行就不会进行合并。
发布于 2019-12-09 23:50:25
假设数据为df1和df2,那么您可以首先对id使用merge,然后对次要id为0的情况进行筛选:
merged = df1.merge(df2, on=['First ID', 'Second ID'], suffixes=('_left', '_right'))
mask = fuzzy_match(merged['Company_left'], merged['Company_right']) | merged['Second ID_left'] != 0
merged[mask]这里,fuzzy_match是一个函数,它接受两个序列并返回一个布尔序列或数组。
https://stackoverflow.com/questions/59258177
复制相似问题