我在写一个小爬虫。下载网页源码html的最好方法是什么?我目前正在使用下面的一小段代码,但有时结果只是页面源代码的一半!我不知道有什么问题。有些人建议我应该使用Jsoup,但如果使用Jsoup中的.get.html()函数太长,也会返回一半的页面源代码。因为我正在写一个爬虫,所以方法支持unicode (UTF-8)是非常重要的,效率也是非常重要的。我想知道最好的现代方法,所以我问你们,因为我是Java新手。谢谢。
代码:
public static String downloadPage(String url)
{
try
{
URL pageURL = new URL(url);
StringBuilder text = new StringBuilder();
Scanner scanner = new Scanner(pageURL.openStream(), "utf-8");
try {
while (scanner.hasNextLine()){
text.append(scanner.nextLine() + NL);
}
}
finally{
scanner.close();
}
return text.toString();
}
catch(Exception ex)
{
return null;
}
}发布于 2011-05-03 04:34:35
就我个人而言,我对Apache HTTP库http://hc.apache.org/httpcomponents-client-ga/非常满意。如果你正在编写一个网络爬虫,你可能会非常欣赏它对cookies和客户端共享之类的东西的控制。
发布于 2011-05-03 03:17:01
我使用commons-io String html = IOUtils.toString(url.openStream(), "utf-8");
https://stackoverflow.com/questions/5861380
复制相似问题