我只需要在这里澄清一下这个概念是否可行,或者我是否误解了爬虫的能力。
假设1有一个100个网站/博客的列表,每天,我的程序(我假设它是爬虫的东西)会在它们中运行,如果某些特定的短语(如“迈阿密热火”或“勒布朗·詹姆斯”)匹配,它将继续下载该页面->,将其转换成一个包含全文/图像的pdf格式,并保存该pdf。
所以我的问题是;
发布于 2012-11-26 19:14:15
这是完全可能的,因为您将使用phpcrawl来爬行网页,使用wkhtmltopdf将html转换成pdf格式。
发布于 2012-11-26 19:14:46
将网站渲染成PDF可能是最困难的部分,它们是可以为您提供的you服务。
例如
http://pdfmyurl.com/
(我没有隶属关系,也从未使用过,这只是我查到的google结果中的第一个网站)
https://stackoverflow.com/questions/13571319
复制相似问题