首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >以编程方式搜索博客、论坛、新闻站点

以编程方式搜索博客、论坛、新闻站点
EN

Stack Overflow用户
提问于 2011-11-22 01:04:48
回答 1查看 460关注 0票数 3

我想创建一个工具,它可以统计某个单词或短语在博客、论坛、社交媒体和新闻网站中出现的频率,例如:

2011年11月20日;足球;800302

2011年11月21日;足球;1000000

等。

每天,这个工具都会执行一次搜索,然后保存特定一天内搜索项目的提及次数。

我如何在Java或Ruby中实现这一点(以编程方式进行Google/Yandex搜索)?

有谷歌博客搜索应用程序接口(http://code.google.com/apis/blogsearch/),但它现在已被弃用。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-11-22 01:16:28

如果你的脑海中有特定的站点,那么你可以每天抓取一次,但是如果你正在寻找你的帖子中提到的更广泛的站点,孩子,这是一个困难的问题。我会尝试使用谷歌趋势- http://www.google.com/trends?q=football或谷歌博客搜索http://www.google.com/search?q=football&tbm=blg

这会给你省去很多麻烦。否则,您可能需要编写自己的爬虫程序并对非常非常大量的数据进行索引。在这种情况下,你可能想看看Nutch http://nutch.apache.org/和Lucene http://lucene.apache.org

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8215582

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档