首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何对搜索引擎关键词进行聚类?

如何对搜索引擎关键词进行聚类?
EN

Stack Overflow用户
提问于 2011-01-06 16:14:57
回答 1查看 1.8K关注 0票数 5

从谷歌分析,我有一个(长)的关键字列表,人们在搜索引擎中找到我的网站。我想找到“核心关键词”,假设的例子:

代码语言:javascript
复制
java online training
learning java
scala training
training for java
online training java
learn scala programming

理想的结果是:'java',‘在线培训’,‘培训’,'scala‘和’学习‘。

困难似乎是检测完整的短语,忽略常见的单词(用于)和处理变体(学习)。

是否有一个库可以这样做(最好是针对JVM)?还是有一个合适的算法,我可以自己实现?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-01-06 16:30:32

这是一个术语或关键词提取问题。我做了一个搜索,结果发现了基亚,它看起来非常符合你的要求。

您可以通过以下算法实现天真的解决方案:

  • 在文档中生成一个包含所需短语长度的ngram列表(选择任意的短语长度限制,如3或4)
  • 将ngram放入多集
  • 按其度数或计数的顺序迭代多个集合的条目,可能使用任意的截止值。

就像你说的,这会有问题的。你可以做一些简单的事情,比如有一个词组字典,或者你可以做一些像术语频率-反向文档频率这样的事情,它可以帮助你自动识别非常频繁的词。基亚会为你做这件事的,最好先调查一下。

希望这能帮上忙!

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4617023

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档