嗨,我有一个任务,要建立一个应用程序,显示来自不同网站的新闻(BBC新闻,CNN等)
我想出了两个想法,要么解析新闻网站的RSS源,要么解析每篇新闻文章的html页面。
然而,在研究了RSS提要的abit之后,我发现很难解析来自rss提要的图像,主要是因为不是所有rss提要都有图像。
因此,您推荐什么作为一个好的HTML文档解析器,我可以提取标题,描述,数据和图像的新闻文章。
发布于 2012-02-29 10:20:14
见本文:
http://net.tutsplus.com/tutorials/php/html-parsing-and-screen-scraping-with-the-simple-html-dom-library/
如果你使用PHP /是优柔寡断的话,你很快就会站起来
发布于 2012-02-29 10:20:34
我建议使用正则表达式,但是您需要为每个网站编写一个表达式。
或者你可以用DOM。
但是无论如何,您总是需要跟踪所有想要解析的WWW上的所有更改。每个网站都需要一套不同的规则。
发布于 2012-02-29 10:32:05
使用DOM解析器和获取内容。不要使用regex。RegEx匹配打开的标记,但XHTML自包含标记除外。解释得很好。
为您选择的语言找到一个DOM解析器,然后使用XPath或类似的方法查询DOM对象。对于在javascript操作DOM方面有经验的人来说,另一个很好的解决方案是查看phanomJS,它很棒,现在我用它作为我所有内容刮板的后端。
干杯
https://stackoverflow.com/questions/9497225
复制相似问题