谢谢你的帮助。我有一个很大的数据集,我试图在其中查询一个包含2-3个单词短语的长列。
我正在使用下面的代码来尝试找出重复单词的频率。下面是示例数据。
我的问题是代码无法解析-我认为这是因为数据中有一些特殊字符。
一些日语,一些版权标志,URL和希腊符号。
1)有没有一种方法可以轻松地删除带有特殊字符的行?
2)我是不是做错了什么?
3)如果有两个单词短语和三个单词阶段,我将如何计算这里的相同频率公式?
=ArrayFormula(QUERY(TRANSPOSE(SPLIT(JOIN(" ";B3:B);" ")& .
{"";""});"select Col1, count(Col2) group by Col1 order by count(Col2)
desc limit 10 label Col1 'Word', count(Col2) 'Frequency'";0))

我从这里收到了代码,顺便说一句。Google Docs spreadsheet formula for most frequent keywords
发布于 2018-04-22 09:11:16
除了额外的".“这个公式似乎引用了错误的列。试试这个:
=ArrayFormula(QUERY(TRANSPOSE(SPLIT(JOIN(" ",A:A)," ")&{"";""}),"select Col1, count(Col2) group by Col1 order by count(Col2) desc label Col1 'Word', count(Col2) 'Frequency'",0))这也是所有的,而不仅仅是前10名。
我不认为这种方法适用于两个单词短语。
https://stackoverflow.com/questions/49959053
复制相似问题