我想知道是否有一种方法可以用Java读取给定网页的html输出?
我知道在php中你可以这样做:
$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);我正在寻找Java的等价物。
此外,有了呈现的html之后,有没有什么Java实用程序可以让我按id剥离单个div?
谢谢你在这方面的帮助。
发布于 2012-05-04 00:43:28
使用jsoup。
您可以在树模型和类似CSS或jQuery选择器的强大查询语法之间进行选择,外加快速获取网页源代码的实用方法。
引用他们网站上的话:
获取维基百科主页,将其解析为DOM,然后从新闻部分中选择标题,并将其放入一个元素列表中:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();元素newsHeadlines = doc.select("#mp-itn b a");
找到表示要删除的div的Element后,只需对其调用remove()即可。
https://stackoverflow.com/questions/10435687
复制相似问题