文章/答案/技术大牛

发布

社区首页 >问答首页 >我可以抓取网站，下载特定的页面，并将呈现的版本保存为PHP中的PDF吗？

问我可以抓取网站，下载特定的页面，并将呈现的版本保存为PHP中的PDF吗？
EN

Stack Overflow用户

提问于 2012-11-26 18:59:51

回答 2查看 2.5K关注 0票数 0

我只需要在这里澄清一下这个概念是否可行，或者我是否误解了爬虫的能力。

假设1有一个100个网站/博客的列表，每天，我的程序(我假设它是爬虫的东西)会在它们中运行，如果某些特定的短语(如“迈阿密热火”或“勒布朗·詹姆斯”)匹配，它将继续下载该页面->，将其转换成一个包含全文/图像的pdf格式，并保存该pdf。

所以我的问题是；

这种事是有可能的，对吧？请注意，我不想仅仅是文字片段，但我希望得到整个页面，就像它是打印在一张纸上？
这种类型的程序被称为爬虫，对吗？
我计划在http://phpcrawl.cuab.de/about.html代码的基础上构建

php

pdf

web-crawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-11-26 19:14:15

这是完全可能的，因为您将使用phpcrawl来爬行网页，使用wkhtmltopdf将html转换成pdf格式。

是的，可以通过使用wkhtmltopdf工具来转换网页。它是一个台式机基s/w，这样您就可以在您的机器中安装。
是的，克劳勒。
它是构建你想要构建的东西的完美工具。

票数 1

Stack Overflow用户

发布于 2012-11-26 19:14:46

是的是可能的。
你可以称它为爬虫或刮刀，因为你正在从网站上抓取数据。

将网站渲染成PDF可能是最困难的部分，它们是可以为您提供的you服务。

例如

http://pdfmyurl.com/

(我没有隶属关系，也从未使用过，这只是我查到的google结果中的第一个网站)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13571319

复制

相似问题

问我可以抓取网站，下载特定的页面，并将呈现的版本保存为PHP中的PDF吗？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我可以抓取网站，下载特定的页面，并将呈现的版本保存为PHP中的PDF吗？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我可以抓取网站，下载特定的页面，并将呈现的版本保存为PHP中的PDF吗？
EN