我想创建一个工具,它可以统计某个单词或短语在博客、论坛、社交媒体和新闻网站中出现的频率,例如:
2011年11月20日;足球;800302
2011年11月21日;足球;1000000
等。
每天,这个工具都会执行一次搜索,然后保存特定一天内搜索项目的提及次数。
我如何在Java或Ruby中实现这一点(以编程方式进行Google/Yandex搜索)?
有谷歌博客搜索应用程序接口(http://code.google.com/apis/blogsearch/),但它现在已被弃用。
发布于 2011-11-22 01:16:28
如果你的脑海中有特定的站点,那么你可以每天抓取一次,但是如果你正在寻找你的帖子中提到的更广泛的站点,孩子,这是一个困难的问题。我会尝试使用谷歌趋势- http://www.google.com/trends?q=football或谷歌博客搜索http://www.google.com/search?q=football&tbm=blg。
这会给你省去很多麻烦。否则,您可能需要编写自己的爬虫程序并对非常非常大量的数据进行索引。在这种情况下,你可能想看看Nutch http://nutch.apache.org/和Lucene http://lucene.apache.org。
https://stackoverflow.com/questions/8215582
复制相似问题