我一直在尝试php、http://www.alchemyapi.com/和embed.ly,但我想知道是否有其他选择可以导入和解析网页,任何页面,无论是新闻网站还是博客……
谢谢
发布于 2011-05-10 06:20:45
获取数据的方法:curl、file_get_contents (可能是其他两种常见的方法)
解析数据:PHP: DOM,SimpleXML preg_match**
因为它是用PHP标记的,所以我只给出了PHP的工作信息。有很多方法可以做到这一点,如果你能将你的问题缩小到你想要做的事情上,这将会有所帮助。解析任何站点的更好的方法是通过他们的RSS提要,或者通过他们的API,推测他们通过RSS/API提供你想要的内容。
** preg_match不是一个很好的替代方案,它确实“有效”,但如果可能的话,最好使用DOM /简单的XML函数。
发布于 2011-05-10 06:26:58
我在工作中使用cURL和preg_match编写了一个爬虫
在我选择这样做之前,我已经了解了DOM解析器http://php.net/manual/en/book.dom.php
https://stackoverflow.com/questions/5943029
复制相似问题