首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特定div的页面抓取

特定div的页面抓取
EN

Stack Overflow用户
提问于 2012-05-04 00:39:04
回答 1查看 131关注 0票数 1

我想知道是否有一种方法可以用Java读取给定网页的html输出?

我知道在php中你可以这样做:

代码语言:javascript
复制
$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);

我正在寻找Java的等价物。

此外,有了呈现的html之后,有没有什么Java实用程序可以让我按id剥离单个div?

谢谢你在这方面的帮助。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-05-04 00:43:28

使用jsoup

您可以在树模型和类似CSS或jQuery选择器的强大查询语法之间进行选择,外加快速获取网页源代码的实用方法。

引用他们网站上的话:

获取维基百科主页,将其解析为DOM,然后从新闻部分中选择标题,并将其放入一个元素列表中:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();元素newsHeadlines = doc.select("#mp-itn b a");

找到表示要删除的divElement后,只需对其调用remove()即可。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10435687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档