我想用Java实现一个非常简单的web爬虫,我已经找到了这个库: crawler4j:http://code.google.com/p/crawler4j/
我需要一个爬虫来做以下事情:
从URL开始(由我指定),并识别当前页面中是否有一个特定的单词,比如自己的名称或公司名称(这个词也是由我指定的)
如果找到这个单词,则必须将当前页面URL保存在数据库中。
因此,没有语义分析,只有语法分析(爬虫必须尝试将网页内容与我指定的标记匹配)。
我会知道这个令牌研究(如果在当前页面中包含一个单词)是由抽象类WebCrawler of crawler4j实现的,还是我必须自己实现它?
发布于 2013-03-29 14:29:19
正如user1887511所指出的,它的实现非常简单。改编自这里。
static String wordToFind = "...";
public void visit(Page page) {
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
String text = htmlParseData.getText();
if(text.indexOf(wordToFind)!=-1)
saveToDB(page.getWebURL().getURL()):
}
}发布于 2013-02-28 10:51:37
您必须自己实现它,代码中的一个起点是访问()子类/方法,这是在访问页面时调用的.并对您进行了解析,然后您可以使用regex模式对页面文本...for实例做您想做的任何事情。
https://stackoverflow.com/questions/15007462
复制相似问题