文章/答案/技术大牛

发布

社区首页 >问答首页 >Openrefine:计数文本方面

问Openrefine:计数文本方面
EN

Stack Overflow用户

提问于 2016-11-02 11:22:00

回答 1查看 695关注 0票数 2

我有一个由书籍元数据(作者、标题、日期、url)组成的大型文件主目录。我的问题是，我想对作者的名字进行操作(经常重复:一个作者可以有数百条记录)，我想对这些作者的子集进行操作，这些作者的记录超过X条。

例如，我有200张与“威廉·莎士比亚”相关的唱片，但只有一张“约翰·布莱克”的唱片，重点是，这是一个经典的权力法则，我有几十万名作者，其中大多数有1-2项记录。

使用“文本方面”>“计数”是不可能的，因为我的计算机被冻结了。

是否有一个查询，只有一些记录的文本方面，根据它们的计数？

openrefine

clusterize

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-11-02 16:33:17

使用以下GREL表达式创建自定义文本面(用实际列名替换COLUMNS_NAME )：

facetCount(value, "value", "COLUMN_NAME") > 100

您可以编辑比较(在示例中，每个计数都大于100)。

要只显示精确计数匹配，需要使用两个==，如下所示：

facetCount(value, "value", "COLUMN_NAME") == 100

有关此基于小面计数的视频+小关节辅导的更多详细信息

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40378685

复制

相似问题

问Openrefine:计数文本方面
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Openrefine:计数文本方面EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Openrefine:计数文本方面
EN