我正在学习写实验爬虫。我计划使用JSoup。例如,我的问题是,如果load facebook.com是JSoup,就会下载CSS、JS和图片,这些都是页面的一部分。
简单地说,JSoup是否加载资产,如链接样式表、JS、图像等?
发布于 2015-11-19 01:32:52
Jsoup只下载该页面中存在的html代码。它不下载JavaScript生成的html,链接css或js或图片。
但是,对于图像,您可以使用Jsoup提取img标记,然后使用java中的URL和Input/OutputStream分别下载。
https://stackoverflow.com/questions/33793017
复制相似问题