首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何更改Crawler4j中的默认crawlStorageFolder?

如何更改Crawler4j中的默认crawlStorageFolder?
EN

Stack Overflow用户
提问于 2016-09-11 15:05:08
回答 1查看 533关注 0票数 0

当我尝试Crawler4j example的快速入门时,

controller.java

我想这是我应该更改结果存储位置的地方。

代码语言:javascript
复制
`public class Controller {
    public static void main(String[] args) throws Exception {
        String crawlStorageFolder = "/data/crawl/root";
        int numberOfCrawlers = 7;

        CrawlConfig config = new CrawlConfig();
        config.setCrawlStorageFolder(crawlStorageFolder);`

首先,我不知道"/data/crawl/root"的文件字典是什么。

然后我尝试更改为"C:\Fraps\try" .It创建一个名为frontier的文件夹,其中包含一些未知的文件,如je.lck、je.info.0……

以我的理解,crawler4j可以用于查找外部链接和内容解析。

这是否意味着包含web内容的许多不同的html文件应该出现在此crawlStorageFolder中?

换句话说,我可以通过crawler4j下载html文件(里面的文本)。或者我应该通过crawler4j下载什么?

EN

回答 1

Stack Overflow用户

发布于 2016-09-19 19:09:53

crawlStorageFolder是存储中间爬网数据的文件夹。它是而不是一个文件夹来存储任何类型的解析和下载的HTML内容。

有关配置说明,请查看this

如果您希望下载并存储获取的数据,则必须在自定义爬虫实现中实现此行为,这将扩展WebCrawler

请查看GitHub上的示例。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39433675

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档