首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我可以抓取网站,下载特定的页面,并将呈现的版本保存为PHP中的PDF吗?

我可以抓取网站,下载特定的页面,并将呈现的版本保存为PHP中的PDF吗?
EN

Stack Overflow用户
提问于 2012-11-26 18:59:51
回答 2查看 2.5K关注 0票数 0

我只需要在这里澄清一下这个概念是否可行,或者我是否误解了爬虫的能力。

假设1有一个100个网站/博客的列表,每天,我的程序(我假设它是爬虫的东西)会在它们中运行,如果某些特定的短语(如“迈阿密热火”或“勒布朗·詹姆斯”)匹配,它将继续下载该页面->,将其转换成一个包含全文/图像的pdf格式,并保存该pdf。

所以我的问题是;

  1. 这种事是有可能的,对吧?请注意,我不想仅仅是文字片段,但我希望得到整个页面,就像它是打印在一张纸上?
  2. 这种类型的程序被称为爬虫,对吗?
  3. 我计划在http://phpcrawl.cuab.de/about.html代码的基础上构建
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-11-26 19:14:15

这是完全可能的,因为您将使用phpcrawl来爬行网页,使用wkhtmltopdf将html转换成pdf格式。

  1. 是的,可以通过使用wkhtmltopdf工具来转换网页。它是一个台式机基s/w,这样您就可以在您的机器中安装。
  2. 是的,克劳勒。
  3. 它是构建你想要构建的东西的完美工具。
票数 1
EN

Stack Overflow用户

发布于 2012-11-26 19:14:46

  1. 是的是可能的。
  2. 你可以称它为爬虫或刮刀,因为你正在从网站上抓取数据。

将网站渲染成PDF可能是最困难的部分,它们是可以为您提供的you服务。

例如

http://pdfmyurl.com/

(我没有隶属关系,也从未使用过,这只是我查到的google结果中的第一个网站)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13571319

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档