我想刮几个网站,很多人建议使用Scrapy。它是基于Python的,因为我非常熟悉PHP,所以我寻找了替代方案。
我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫,或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。
它怎么能和Python上的Scrapy相比呢?
请建议我哪一个是最好的用来抓取网站。
谢谢
发布于 2012-11-23 16:18:01
PHPCrawl是一个纯粹的爬虫,它把找到的页面和它们的源代码“原样”地传递给用户(连同一些上下文信息)。因此,它是快速的,它能够使用多进程,并有大量的选项来配置它。
关于Scrapy我不能说太多,因为我到目前为止还没有用过它。
发布于 2012-11-23 20:52:16
是的,当然。但正如我所说的,PHPCrawl提供了页面源代码,您必须从中提取您想要提取的数据。
https://stackoverflow.com/questions/13506216
复制相似问题