文章/答案/技术大牛

发布

社区首页 >问答首页 >使用crawler4j库实现Java crwaler中模式匹配的一些信息

问使用crawler4j库实现Java crwaler中模式匹配的一些信息
EN

Stack Overflow用户

提问于 2013-02-21 16:33:22

回答 2查看 566关注 0票数 0

我想用Java实现一个非常简单的web爬虫，我已经找到了这个库: crawler4j：http://code.google.com/p/crawler4j/

我需要一个爬虫来做以下事情：

从URL开始(由我指定)，并识别当前页面中是否有一个特定的单词，比如自己的名称或公司名称(这个词也是由我指定的)

如果找到这个单词，则必须将当前页面URL保存在数据库中。

因此，没有语义分析，只有语法分析(爬虫必须尝试将网页内容与我指定的标记匹配)。

我会知道这个令牌研究(如果在当前页面中包含一个单词)是由抽象类WebCrawler of crawler4j实现的，还是我必须自己实现它？

java

pattern-matching

web-crawler

crawler4j

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-03-29 14:29:19

正如user1887511所指出的，它的实现非常简单。改编自这里。

  static String wordToFind = "...";
  public void visit(Page page) {          
            if (page.getParseData() instanceof HtmlParseData) {
                    HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
                    String text = htmlParseData.getText();
                    if(text.indexOf(wordToFind)!=-1)
                            saveToDB(page.getWebURL().getURL()):
            }
  }

票数 2

Stack Overflow用户

发布于 2013-02-28 10:51:37

您必须自己实现它，代码中的一个起点是访问()子类/方法，这是在访问页面时调用的.并对您进行了解析，然后您可以使用regex模式对页面文本...for实例做您想做的任何事情。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15007462

复制

相似问题

问使用crawler4j库实现Java crwaler中模式匹配的一些信息
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用crawler4j库实现Java crwaler中模式匹配的一些信息EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用crawler4j库实现Java crwaler中模式匹配的一些信息
EN