我有几个包含公司数据的数据集:- entity_structure (列: entity_id,parent_entity_id,ultimate_parent_id) - entity_addresses (列: address_id,entity_id,location_city,state,postal_code,zip,street,...) -供应商(列: vendor_id,parent_vendor_id,top_vendor_id,cnt_children,orgtype_id,geo_id,name,email,...) - geo (列: geo_id,zipcode,is_primary,latitude,vendor,elevation,state,...) - entity_coverage (entity_id,name,proper_name,sic_code,industry_code,sector_code,iso,...)
我需要在数据集之间自动映射实体,例如,一个数据集中可能有一个名为"Google“的公司,而另一个数据集中可能有一个名为"Google 123”的公司。我需要能够以足够高的信心确定这些是相同的实体。在大多数情况下,数据不共享唯一键。在大多数情况下,数据不共享唯一键。
命名实体链接是这里最好的方法吗?有没有关于如何解决这个问题的Python示例?
发布于 2020-05-29 13:34:51
根据您的示例,Levenshtein Distance可能会有所帮助。
https://stackoverflow.com/questions/62078036
复制相似问题