文章/答案/技术大牛

发布

社区首页 >问答首页 >SQL中文档频率的计算

问SQL中文档频率的计算
EN

Stack Overflow用户

提问于 2014-12-02 23:17:00

回答 2查看 235关注 0票数 1

如何使用SQL计算文档频率？

文档频率是一个术语出现的文档(行)的数量，而不是一个术语的总数(即术语频率)。

我可以这样计算频率一词：

create table countries (
  iso char(2) primary key,
  name text not null unique
);

insert into countries values 
('GS', 'South Georgia and the South Sandwich Islands'),
('ZA', 'South Africa');

select
  term
  , count(*) as term_frequency
from 
  countries
  , regexp_split_to_table(name, '[^\.\w]') term
where 
  term <> ''
group by
  term;

但是，我不太确定如何获得文档频率(应该是2表示“南方”，而不是3)。

输出应该如下所示：

term     document_frequency
---------------------------
South    2
Georgia  1
and      1
the      1
Sandwich 1
Islands  1
Africa   1

sql

postgresql

postgresql-9.3

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-12-03 06:46:00

因此，计算每个术语的不同文档数：

select term, count(DISTINCT iso) as doc_frequency
from   countries
     , regexp_split_to_table(name, '[^\.\w]') term
where  term <> ''
group  by term;

票数 2

Stack Overflow用户

发布于 2014-12-02 23:36:32

不如：

select count(*) from countries where name similar to concat('\w', term, '\w');

以上都是未经测试的，可能有语法错误或4，但我认为一般的想法应该有效。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27260847

复制

相似问题

问SQL中文档频率的计算
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SQL中文档频率的计算EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SQL中文档频率的计算
EN