问使网页爬虫在本地下载多个网页
EN

Stack Overflow用户

提问于 2015-04-14 15:39:22

回答 1查看 268关注 0票数 0

我希望我的网页爬虫下载所有浏览网址的本地。在该分钟，它将下载每一个网站，但随后覆盖每个网站访问的本地文件。爬虫从www.bbc.co.uk开始，下载该文件，然后当它碰到另一个文件时，它用下一个URL覆盖该文件。如何将它们下载到单个文件中，以便在最后有一个集合？下面有这段代码，但我不知道从哪里开始。任何建议都会很好。括号( URL )中的URL是一个字符串，用于操作所有浏览过的网页。

         URL url = new URL(URL);
             BufferedWriter writer;
                 try (BufferedReader reader = new BufferedReader
                    (new InputStreamReader(url.openStream()))) {
                            writer = new BufferedWriter
                          (new FileWriter("c:/temp/data.html", true));
                            String line;
                            while ((line = reader.readLine()) != null) {
                                //System.out.println(line);
                            writer.write(line);
                            writer.newLine();
                            }        
                        }
                             writer.close();

web-crawler

java

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-04-14 15:50:11

你需要给你的文件一个唯一的名字。

您可以将它们保存在不同的文件夹中(每个网站有一个根目录)。

或者你可以给他们一个唯一的名字(例如使用计数器)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29631660

复制

相似问题

问使网页爬虫在本地下载多个网页
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使网页爬虫在本地下载多个网页EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使网页爬虫在本地下载多个网页
EN