我希望在Eclipse中使用crawler4j解析所有包含作为“查询”输入的文本的文档。
有什么想法吗?
发布于 2015-03-20 16:31:57
不是一个“直接”的答案,但我也玩爬行这几天。我先看了看Crawler4J,然后偶然发现了JSoup。虽然爬虫并没有很好地发挥作用,但是jSoup实际上是一个非常容易的解析工具。这就是我的建议。我想爬虫是很好的,如果你真的需要抓取网页的一部分。但是JSoup似乎确实是一个很好的解析器。在节点选择等方面与JQuery相似。因此,可能首先使用爬虫收集文档,然后使用JSoup解析它们。下面是一个简单的例子:
Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").timeout(5000)
.get();
Elements els = doc.select("li");https://stackoverflow.com/questions/29151646
复制相似问题