当我尝试Crawler4j example的快速入门时,
在controller.java中
我想这是我应该更改结果存储位置的地方。
`public class Controller {
public static void main(String[] args) throws Exception {
String crawlStorageFolder = "/data/crawl/root";
int numberOfCrawlers = 7;
CrawlConfig config = new CrawlConfig();
config.setCrawlStorageFolder(crawlStorageFolder);`首先,我不知道"/data/crawl/root"的文件字典是什么。
然后我尝试更改为"C:\Fraps\try" .It创建一个名为frontier的文件夹,其中包含一些未知的文件,如je.lck、je.info.0……
以我的理解,crawler4j可以用于查找外部链接和内容解析。
这是否意味着包含web内容的许多不同的html文件应该出现在此crawlStorageFolder中?
换句话说,我可以通过crawler4j下载html文件(里面的文本)。或者我应该通过crawler4j下载什么?
https://stackoverflow.com/questions/39433675
复制相似问题