文章/答案/技术大牛

发布

社区首页 >问答首页 >Java -下载网页源代码html的最佳方式

问Java -下载网页源代码html的最佳方式
EN

Stack Overflow用户

提问于 2011-05-03 03:14:12

回答 2查看 7.3K关注 0票数 1

我在写一个小爬虫。下载网页源码html的最好方法是什么？我目前正在使用下面的一小段代码，但有时结果只是页面源代码的一半！我不知道有什么问题。有些人建议我应该使用Jsoup，但如果使用Jsoup中的.get.html()函数太长，也会返回一半的页面源代码。因为我正在写一个爬虫，所以方法支持unicode (UTF-8)是非常重要的，效率也是非常重要的。我想知道最好的现代方法，所以我问你们，因为我是Java新手。谢谢。

代码：

public static String downloadPage(String url)
    {
        try
        {
            URL pageURL = new URL(url);
            StringBuilder text = new StringBuilder();
            Scanner scanner = new Scanner(pageURL.openStream(), "utf-8");
            try {
                while (scanner.hasNextLine()){
                    text.append(scanner.nextLine() + NL);
                }
            }
            finally{
                scanner.close();
            }
            return text.toString();
        }
        catch(Exception ex)
        {
            return null;
        }
    }

java

download

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-05-03 04:34:35

就我个人而言，我对Apache HTTP库http://hc.apache.org/httpcomponents-client-ga/非常满意。如果你正在编写一个网络爬虫，你可能会非常欣赏它对cookies和客户端共享之类的东西的控制。

票数 2

Stack Overflow用户

发布于 2011-05-03 03:17:01

我使用commons-io String html = IOUtils.toString(url.openStream(), "utf-8");

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5861380

复制

相似问题

问Java -下载网页源代码html的最佳方式
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java -下载网页源代码html的最佳方式EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java -下载网页源代码html的最佳方式
EN