首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >SQL中文档频率的计算

SQL中文档频率的计算
EN

Stack Overflow用户
提问于 2014-12-02 23:17:00
回答 2查看 235关注 0票数 1

如何使用SQL计算文档频率?

文档频率是一个术语出现的文档(行)的数量,而不是一个术语的总数(即术语频率)。

我可以这样计算频率一词:

代码语言:javascript
复制
create table countries (
  iso char(2) primary key,
  name text not null unique
);

insert into countries values 
('GS', 'South Georgia and the South Sandwich Islands'),
('ZA', 'South Africa');

select
  term
  , count(*) as term_frequency
from 
  countries
  , regexp_split_to_table(name, '[^\.\w]') term
where 
  term <> ''
group by
  term;

但是,我不太确定如何获得文档频率(应该是2表示“南方”,而不是3)。

输出应该如下所示:

代码语言:javascript
复制
term     document_frequency
---------------------------
South    2
Georgia  1
and      1
the      1
Sandwich 1
Islands  1
Africa   1
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-12-03 06:46:00

因此,计算每个术语的不同文档数:

代码语言:javascript
复制
select term, count(DISTINCT iso) as doc_frequency
from   countries
     , regexp_split_to_table(name, '[^\.\w]') term
where  term <> ''
group  by term;
票数 2
EN

Stack Overflow用户

发布于 2014-12-02 23:36:32

不如:

select count(*) from countries where name similar to concat('\w', term, '\w');

以上都是未经测试的,可能有语法错误或4,但我认为一般的想法应该有效。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27260847

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档