从谷歌分析,我有一个(长)的关键字列表,人们在搜索引擎中找到我的网站。我想找到“核心关键词”,假设的例子:
java online training
learning java
scala training
training for java
online training java
learn scala programming理想的结果是:'java',‘在线培训’,‘培训’,'scala‘和’学习‘。
困难似乎是检测完整的短语,忽略常见的单词(用于)和处理变体(学习)。
是否有一个库可以这样做(最好是针对JVM)?还是有一个合适的算法,我可以自己实现?
发布于 2011-01-06 16:30:32
这是一个术语或关键词提取问题。我做了一个搜索,结果发现了基亚,它看起来非常符合你的要求。
您可以通过以下算法实现天真的解决方案:
就像你说的,这会有问题的。你可以做一些简单的事情,比如有一个词组字典,或者你可以做一些像术语频率-反向文档频率这样的事情,它可以帮助你自动识别非常频繁的词。基亚会为你做这件事的,最好先调查一下。
希望这能帮上忙!
https://stackoverflow.com/questions/4617023
复制相似问题