首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >解析HTML页面?

解析HTML页面?
EN

Stack Overflow用户
提问于 2012-02-29 10:16:52
回答 4查看 537关注 0票数 0

嗨,我有一个任务,要建立一个应用程序,显示来自不同网站的新闻(BBC新闻,CNN等)

我想出了两个想法,要么解析新闻网站的RSS源,要么解析每篇新闻文章的html页面。

然而,在研究了RSS提要的abit之后,我发现很难解析来自rss提要的图像,主要是因为不是所有rss提要都有图像。

因此,您推荐什么作为一个好的HTML文档解析器,我可以提取标题,描述,数据和图像的新闻文章。

EN

回答 4

Stack Overflow用户

发布于 2012-02-29 10:20:14

见本文:

http://net.tutsplus.com/tutorials/php/html-parsing-and-screen-scraping-with-the-simple-html-dom-library/

如果你使用PHP /是优柔寡断的话,你很快就会站起来

票数 1
EN

Stack Overflow用户

发布于 2012-02-29 10:20:34

我建议使用正则表达式,但是您需要为每个网站编写一个表达式。

或者你可以用DOM。

但是无论如何,您总是需要跟踪所有想要解析的WWW上的所有更改。每个网站都需要一套不同的规则。

票数 0
EN

Stack Overflow用户

发布于 2012-02-29 10:32:05

使用DOM解析器和获取内容。不要使用regex。RegEx匹配打开的标记,但XHTML自包含标记除外。解释得很好。

为您选择的语言找到一个DOM解析器,然后使用XPath或类似的方法查询DOM对象。对于在javascript操作DOM方面有经验的人来说,另一个很好的解决方案是查看phanomJS,它很棒,现在我用它作为我所有内容刮板的后端。

干杯

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9497225

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档