文章/答案/技术大牛

发布

社区首页 >问答首页 >特定div的页面抓取

问特定div的页面抓取
EN

Stack Overflow用户

提问于 2012-05-04 00:39:04

回答 1查看 131关注 0票数 1

我想知道是否有一种方法可以用Java读取给定网页的html输出？

我知道在php中你可以这样做：

$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);

我正在寻找Java的等价物。

此外，有了呈现的html之后，有没有什么Java实用程序可以让我按id剥离单个div？

谢谢你在这方面的帮助。

html

java

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-05-04 00:43:28

使用jsoup。

您可以在树模型和类似CSS或jQuery选择器的强大查询语法之间进行选择，外加快速获取网页源代码的实用方法。

引用他们网站上的话：

获取维基百科主页，将其解析为DOM，然后从新闻部分中选择标题，并将其放入一个元素列表中：

Document doc = Jsoup.connect("http://en.wikipedia.org/").get()；元素newsHeadlines = doc.select("#mp-itn b a")；

找到表示要删除的div的Element后，只需对其调用remove()即可。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10435687

复制

相似问题

问特定div的页面抓取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特定div的页面抓取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特定div的页面抓取
EN