看起来,OpenRefine还不支持跨列集群。
有没有人对如何将基于“制造商”的“模型”进行聚类提出任何建议,就像“城市”将基于“州”一样(许多“斯普林菲尔德”可能存在于美国,但只有集群“城市”:“春田”,如果相对‘州’栏是相同的)?相对列已经规范化。
发布于 2014-02-26 03:44:08
一个简单的方法是创建一个列,该列是连接字段上的model+manufacturer集群的连接,然后(如果需要的话)将这两个部分再分割回去。
发布于 2017-02-11 03:13:01
我也有一个类似的要求去重复地址字符串。因此,我创建了一个新列(比如COMPLETE_ADDRESS),并使用下面的GREL表达式连接了街道、城市、省、国家和邮政编码字段
cells["STREET"].value + " " + cells["CITY"].value + " " + cells["PROVINCE"].value + " " + cells["COUNTRY"].value + " " + cells["ZIPCODE"].value然后我做了以下几件事:
话虽如此,截至本文撰写之时,还没有将独立列合并的功能。要做到这一点,唯一的方法是适当地将COMPLETE_ADDRESS拆分为单独的列。在这种情况下,您将不得不使用更好的分隔符,例如管道“\”符号,它不会与现有值冲突。
https://stackoverflow.com/questions/22030764
复制相似问题