我希望我的网页爬虫下载所有浏览网址的本地。在该分钟,它将下载每一个网站,但随后覆盖每个网站访问的本地文件。爬虫从www.bbc.co.uk开始,下载该文件,然后当它碰到另一个文件时,它用下一个URL覆盖该文件。如何将它们下载到单个文件中,以便在最后有一个集合?下面有这段代码,但我不知道从哪里开始。任何建议都会很好。括号( URL )中的URL是一个字符串,用于操作所有浏览过的网页。
URL url = new URL(URL);
BufferedWriter writer;
try (BufferedReader reader = new BufferedReader
(new InputStreamReader(url.openStream()))) {
writer = new BufferedWriter
(new FileWriter("c:/temp/data.html", true));
String line;
while ((line = reader.readLine()) != null) {
//System.out.println(line);
writer.write(line);
writer.newLine();
}
}
writer.close();发布于 2015-04-14 15:50:11
你需要给你的文件一个唯一的名字。
您可以将它们保存在不同的文件夹中(每个网站有一个根目录)。
或者你可以给他们一个唯一的名字(例如使用计数器)。
https://stackoverflow.com/questions/29631660
复制相似问题