首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >OpenRefine -交叉列聚类

OpenRefine -交叉列聚类
EN

Stack Overflow用户
提问于 2014-02-26 02:53:51
回答 2查看 380关注 0票数 0

看起来,OpenRefine还不支持跨列集群。

有没有人对如何将基于“制造商”的“模型”进行聚类提出任何建议,就像“城市”将基于“州”一样(许多“斯普林菲尔德”可能存在于美国,但只有集群“城市”:“春田”,如果相对‘州’栏是相同的)?相对列已经规范化。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-02-26 03:44:08

一个简单的方法是创建一个列,该列是连接字段上的model+manufacturer集群的连接,然后(如果需要的话)将这两个部分再分割回去。

票数 0
EN

Stack Overflow用户

发布于 2017-02-11 03:13:01

我也有一个类似的要求去重复地址字符串。因此,我创建了一个新列(比如COMPLETE_ADDRESS),并使用下面的GREL表达式连接了街道、城市、省、国家和邮政编码字段

代码语言:javascript
复制
cells["STREET"].value + " " + cells["CITY"].value + " " + cells["PROVINCE"].value + " " + cells["COUNTRY"].value + " " + cells["ZIPCODE"].value

然后我做了以下几件事:

  1. 使用默认算法对新的COMPLETE_ADDRESS列进行聚类
  2. 合并每个集群中的值(现在这些值是完全重复的)
  3. 对列进行永久排序。
  4. 做一个“空白下来”的操作。
  5. 最后,只选择COMPLETE_ADDRESS中的非空值。

话虽如此,截至本文撰写之时,还没有将独立列合并的功能。要做到这一点,唯一的方法是适当地将COMPLETE_ADDRESS拆分为单独的列。在这种情况下,您将不得不使用更好的分隔符,例如管道“\”符号,它不会与现有值冲突。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22030764

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档