首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在两个不同的公司数据集之间映射实体

在两个不同的公司数据集之间映射实体
EN

Stack Overflow用户
提问于 2020-05-29 11:08:33
回答 1查看 41关注 0票数 0

我有几个包含公司数据的数据集:- entity_structure (列: entity_id,parent_entity_id,ultimate_parent_id) - entity_addresses (列: address_id,entity_id,location_city,state,postal_code,zip,street,...) -供应商(列: vendor_id,parent_vendor_id,top_vendor_id,cnt_children,orgtype_id,geo_id,name,email,...) - geo (列: geo_id,zipcode,is_primary,latitude,vendor,elevation,state,...) - entity_coverage (entity_id,name,proper_name,sic_code,industry_code,sector_code,iso,...)

我需要在数据集之间自动映射实体,例如,一个数据集中可能有一个名为"Google“的公司,而另一个数据集中可能有一个名为"Google 123”的公司。我需要能够以足够高的信心确定这些是相同的实体。在大多数情况下,数据不共享唯一键。在大多数情况下,数据不共享唯一键。

命名实体链接是这里最好的方法吗?有没有关于如何解决这个问题的Python示例?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-29 13:34:51

根据您的示例,Levenshtein Distance可能会有所帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62078036

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档