我有一个具有120 k行(包括文件名)的继承表。在整个文件名中大约复制了12,000个子字符串。每个文件名都是根据一个奇怪的命名约定命名的,但它们都基于相同的子字符串。例如,一个可能被称为'apple-5pxl.mov‘,另一个可能是’c-5 pxl.mov‘,还有一个可能是’76_5 pxl.mov‘.而另一个可能是'apple-234x.mov’和'76_234x.mov‘。
如何返回不同子字符串数量的计数和列表?在上面的示例中,将有2 (5xpl.mov和234x.mov)
发布于 2018-10-16 16:20:50
我认为您可以在模式参数中使用substring():
select substring(filename from '[^-_]*$') as pat, count(*)
from t
group by pat;模式似乎是由连字符或下划线分隔的字符串末尾的任何内容。
https://stackoverflow.com/questions/52839840
复制相似问题